光学文字認識 (OCR)は、テキスト識別機能と呼ばれることもあります。この技術は約50年前から使われていますが、私達の職場に技術が浸透するにつれ、日常の生活においてもますます使われることが多くなってきました。

技術の発達により、仕事や個人のプロジェクトはオフィスのスペースから自宅へ、さらに世界中どこへでも持っていけるようになりました。技術が発展するにつれ、人々は世界が進展して行く方向に向けて、自分達の意見をもっと主張できるようになってきました。便利さと容易さが、コンテンツと技術の世界におけるキーワードとなっています。OCRは静的コンテンツを、スマートで検索可能なものに変化させてしまいました。

OCR とは?

OCR (optical character recognition、光学文字認識)とは、紙に印刷した文書をデジタル画像のファイルに変換する技術です。スキャンした文書を、機械読取り可能なPDFファイルに自動的に変換するデジタルのコピーマシンで、変換されたデジタルファイルは編集、共有が可能です。コンピューターを使ったレシートのスキャンが、OCRの良い例です。コンピューターは、それを画像として保存します。画像では検索、編集、文字カウントができませんが、OCRを使えば画像をテキスト文書に変換して、コンテンツをテキストとして保存することができます。OCRプログラムは、カメラ画像、画像のみのPDFファイル、スキャンした文書からデータを引き出すことができます。静的コンテンツを調整可能にし、データをマニュアルで入力する必要を省きます。

なぜOCRは重要なのか?

現在、世界はデジタル化していますが、ほとんどのビジネスでは、今でも印刷した媒体を使っています。そうした文書には、請求書、契約書、スキャンした法的文書、その他、紙のフォームなどがあります。紙の文書は、実際に場所を取るばかりか、それを管理するための時間と労力がかかります。様々なビジネスにおいて、ペーパーレス文書が幅広く使われるようになってきました。文書をスキャンして画像にするのは、手動で入力する必要があるので時間がかかります。OCRは、画像を他のビジネス用ソフトウェアでも読み取れるテキストデータに変換することで、個人と企業の時間と費用を節約します。この技術は業務を効率化し、分析を可能にし、プロセスを自動化して総合的な生産性を高めます。

視覚障害をもつユーザー

テキストのスキャンや検索が可能な便利さに加え、OCRは目の不自由な方や視覚障害を持つユーザーに、より簡単なアクセスを提供します。OCRの認識プロセスは、言語とその構造にも作用し、綴りが間違っている場合には修正を行います。このスペルチェック技術により、ユーザーに最も正確な情報を伝えることができます。OCRのシステムの中にはシンセサイザーが含まれており、認識した文字を音声で読み上げます。適応技術を使ったデバイスでは、コンピューターのスクリーン拡大や、音声や点字の提供が可能です。目が不自由な、または視覚障害のあるユーザーは、こうしたデバイスを使用してスキャンしたテキストを通じ、コンテンツにアクセスすることができます。ソフトウェアを通じて、スキャンした文書のテキストは、各ユーザーの仕様に応じて音声で読み上げることができます。

https://video.tv.adobe.com/v/3415714?end=nothing&learn=on

光学文字認識の仕組み

OCRソフトウェアまたはエンジンは、一連のステップを通して機能します。

1.画像分析 ー スキャナーが文書を読み、バイナリデータに変換します。OCRソフトウェアがスキャンしたファイルを調べ、明るい部分を背景、そして暗い部分をテキストに分類します

2.事前分析


OCR技術は、あらゆる技術を通じて画像を完璧にします

  • テキスト画像のエッジをスムーズにし、デジタル画像に点として現れた汚れを取り除きます
  • スキャンの過程で起きた画像の傾きを修正して、真っ直ぐな状態にします
  • 多言語OCR技術で、原稿を認識します
  • 画像の中の線や四角を整理します

3.テキストの認識


OCR技術は、特徴抽出機能とパターンマッチングを用いて、テキストを処理します

  • 特徴抽出機能は、言語を円形、線、線の方向、複数の線が交差する部分などの構成要素に分解します。そこから、こうした構成要素を使って、最適なマッチ、または最も近いものを検索します
  • パターンマッチングでは、「字体」と呼ばれる文字の形のみを取り出して、既に保存されている類似した「字体」と比較します。パターン認識機能は、既に保存されている「字体」のサイズやフォントが、新しく加わった「字体」と類似している場合のみ機能します。この方法は、既によく知られているフォントでタイプされた文書をスキャンした画像の時に、最も効果的に作用します

4.最終処理


コンテンツが分析されると、システムは抽出したテキストデータを、コンピューターで使えるファイルに変換します。OCRソフトウェアによっては、スキャンした注釈付きのPDFファイルの、注釈を加える「以前」と「以後」、両方のバージョンを作成することができます。OCRがテキストを認識しない場合は、スキャナーが良質で、光も十分入ること、そしてスキャナーが歪んでいないことを確かめてください

OCR技術の歴史

文書を一変させてしまうこの技術は、Kurzweil Computer Products, Incを創設した、レイ・カーツワイル氏によって1974年に開発されました。この新技術はほとんど、どんなフォントで印刷されたテキストでも、認識することができます。カーツワイル氏は、この技術を視覚障害者のための機械学習用デバイスに使うことが、最適な使用法であると確信しました。そして、テキストを音声で読み上げ、 テキストを変換 して、音声読み上げフォーマットにすることができるリーディングマシンを製作しました。彼は1980年、自分の会社をXerox社に売却しました。Xerox社は、紙の文書からコンピューターテキストへの変換を、商業化することに興味を持っていたのです。

この技術は、歴史的な新聞の電子化に使われるようになる1990年代初頭まで、一般化しませんでした。OCRはこのころから、随分進歩しました。現在、ユーザーはOCRを使って、ほぼ完璧に正確な変換を行うことができます。OCRのさらに進化したメソッドにより、文書処理のワークフローが自動化されました。このソフトウェアが開発されるまで、文書は手でタイプし直さなければならず、時間、労力、コストがかかっていました。しかも、その内容にはエラーがある可能性が高かったのです。OCRは現在、幅広く使われており、プライベートおよびプロフェッショナルの用途に向けて、その効率性は向上を続けています。

OCR技術の種類

データサイエンティストは、アプリケーションと用途により、あらゆる種類のOCRを区別します。その例をいくつか紹介します。

  • 簡単な光学文字認識ソフトウェアは、複数のテキストとフォントの画像パターンを、テンプレートとして保存しています。このソフトウェアは、パターンダッシュマッチングアルゴリズムを使って、複数のテキスト画像の間の違いを見つけます。内蔵されたデータベース内で、文字ごとに分析していきます。システムが単語を一つずつ複製する時に、光学単語認識が作用します。フォントや手書きスタイルのどれもが、識別されるわけではありません。両方とも無数に種類があるので、識別するには限界があります
  • インテリジェント文字認識 (ICR) [Intelligent character recognition]ソフトウェアは、OCRの最新の技術です。ICRは人間がテキストを読むのと同様に読むことができます。機械学習ソフトウェアを使うことで、人間と同じように機械をトレーニングできるのです。ニューラルネットワークと呼ばれる機械学習システムが、テキストを見極め、その画像を繰り返しプロセスします。このシステムが、線、曲線、ループ、交差する線、などを検索し、データのそれぞれのレベルでの結果を収集して、最終的な結論を出します
  • インテリジェント単語認識は、ICRと同じ原則で作用しますが、この技術はまず最初に画像を文字にしていくのではなく、単語全体を画像として見極めます
  • 光学式マーク認識とは、文書中の透かし、ロゴ、そのほかのマークを認識する技術です
A laptop uses Adobe software to open, view, and edit scanned documents using OCR.

OCRのユーザー事例

OCRの最も一般的な使用例は、印刷物を機械で読み取れるテキスト文書に変換することです。その他のユーザー事例として、視覚障害者がコンテンツにアクセスできるようにする、データの自動化、車のナンバープレートや請求書、パスポートなどを、検索エンジンで検索するためにリストアップする、などがあります。

家庭用、ビジネス用両方に最適なOCRソフトウェア

ここに家庭用、ビジネス用両方に最適なOCRソフトウェアを、いくつかご紹介しましょう。

1.Adobe Acrobat Pro DC

Acrobat Proは、ワークフローをスムーズにし、文書管理を確実に能率的にするために必要なOCRツールをすべて提供します。AcrobatのProバージョンには、必要な基本OCR機能がすべて備わっているだけでなく、文書にコメントやフィードバックを入れたり、2つの文書を比較したり、表をスキャンするなど特別なツールが備わっています。文書をスキャンしたすぐ後に、コンピューターのスクリーン上で調整作業を行うことができます。Acrobat OCRと無料のAdobe Scanアプリを一緒に使うと、文書をスキャンしてPDFに変換することができます。テキストが自動的に認識され、Adobe OCRツールを使って文書を必要に応じて調整することができます。

2.OmniPage Ultimate

このソフトウェアは、その高度に正確な変換機能でよく知られています。OmniPage Ultimateを使うと、自分独自のワークフローを構築できるので、文書が自動的に適正なフォーマットで、適切な場所に配置されます。

3.Abbyy FineReader

Abbyy FineReaderには、紙の文書をデジタル文書に変換するための、必要なツールがすべて揃っています。このソフトウェアはテキストを認識し、PDF、Microsoft Officeのあらゆるフォーマットおよび他のフォーマットに変換します。文書を比較したり、注釈やコメントを加えたり、その他様々なことが可能です。このソフトウェアは、大量の文書をバッチ単位で変換することができ、また数多くの出力フォーマットを扱うことができます。対応している言語は192か国語です。

4.Readiris

Readirisは多くのファイル形式をサポートし、文書にコメント、透かし、注釈のみならず、署名やセキュリティ保護をも加えることができます。

5.Rossum

このOCRソリューションは、請求書をスキャンして重要な情報を、その時に使っているプログラムにエクスポートする目的で開発されました。このソフトウェアは、テンプレート形式ではなくAIを使って、文書の重要な情報をスキャンします。この方法だと、それぞれ違う請求書をそれぞれの形式にすることができ、情報をそれぞれの方法で提出することができます。

実社会のOCRアプリケーション

プライベートおよびプロレベルの日々のニーズに応じて、いくつかのOCRソフトウェアとツールがあります。

  • レイアウト分析ソフトウェアは、スキャンした文書をOCRに適した複数のセクションに分割します
  • OCRエンジンが文字を認識します
  • OCRの機能を他のソフトウェアに加える、ソフトウェア開発キット。例として、文書画像管理システム、記録管理ソリューション、フォームプロセスアプリケーションなどがあげられます
  • 一つ以上のOCRエンジンの、グラフィカルインターフェース

ビジネスでのOCR

文書の作成や共同作業は、ビジネスの機能において重要なパートを占めています。ビジネスが成長するにつれ、仕事の量も増えていきます。通常は従業員が増員されますが、この便利な技術を使って人々の仕事量を減らすことも可能です。

タスクによっては、手動でデータを入力する手間を省くことによって、その労力をビジネスの他の重要なタスクに集中させることができます。自動データ抽出とストレージ容量により、企業はワークフローと効率性を高めることができます。コストが下がり、データはデジタル化でより集中化され、安全に保護されます。企業はOCRを使ってデータをExcelシートに読み込むことができ、コンテンツを整理された形で簡単にオンラインで閲覧できるようになります。コンテンツがオンラインで保存されれば、文書を紛失したり、盗難に遭ったりすることもありません。デジタル文書なら、すべての人が簡単に最新の情報を入手でき、皆で共通認識を持つことが容易になります。

教育におけるOCR技術

OCRソフトウェアは、学生たちの学習において素晴らしいツールとなります。教育においてどんなサポートができるか、いくつか例をご紹介しましょう。

  • OCRはテキスト音声に変換して読み上げるので、ノートを取るのが楽になります
  • テキストの色やサイズが変えられます
  • 単語、文章、段落をハイライトすることができます
  • デジタルのブックマークを付けられるので、生徒/学生は簡単にテキストの違う部分に移動できます

OCRはディスレクシアの生徒/学生にとって、素晴らしいツールです。紙に印刷された宿題のシートをスキャンして、デジタル文書に変換できます。そして、生徒/学生はツールを使って文書を読むことができます。

ヘルスケアにおけるOCR

ヘルスケアにおいてOCRは、患者の記録、例えば検査結果、入院記録、治療、保険の支払いなどを扱う場合に使われます。この技術は、ワークフローをスムーズにし、この業界での人間の手による作業の量を減らしてくれます。OCRは、記録管理を容易にし、最新のコンテンツを維持します。電子文書へのデータ追加に要する時間が短くなり、入力されたデータの正確さが向上します。OCRデータ入力時のミスが少なくなります。

OCRは電子健康記録 (EHR)から、情報を得る場合にも使うことができます。例えば、電子健康記録に患者の医療記録が記録されていて、医師がその情報にアクセスする必要があるかもしれません。OCRで検索をすれば、医師は必要な情報を素早く見つけることができます。紙に印刷された医療記録をスキャンして電子化すれば、医療関係者は簡単に必要な情報にアクセスできます。この技術は、エラーの可能性を減らして患者を安全に保護するため、処方箋やその他の重要文書をスキャンする時に使われます。OCRを使ってデジタルフォームを作成すれば、紙と時間が節約でき、しかも文書管理が楽になります。

OCRと機械学習 — 今後の展開

OCRと機械学習はここ20年ほどで急激に発展し、今後も数年にわたって進化し続けることでしょう。次世代のOCRは機械学習と人工知能を使って構築されており、以前の、文字をマッチさせるソフトウェアだけに限定されてはいません。OCRソフトウェアは、自ら考え、学ぶことを今後も続けていきます。

OCR技術は、スキャンしたテキストを知覚する機能を維持していくだけでなく、テキストに書かれた意味を発見し、全体的に意味の通った内容にしていきます。ディープラーニングが発展を続け、OCR技術を変えていくにつれ、機械学習という考えは過去のものになるかもしれません。ディープラーニング技術は、人間の頭脳の機能を模倣したニューラルネットワークを使って構成されており、アルゴリズムが正確さを確認するのに、過去のパターンに頼る必要はないことを証明しています。それはつまり、ディープラーニング技術はテキストを読むだけでなく、自分でテキストの内側にこめられた意味を理解できるということです。

A phone uses OCR software to scan a paper copy of a recipe and converts it to a PDF you can open and edit on your laptop.

OCRがいかにプロセスをスムーズにし、効率を上げるか

OCRソフトウェアと技術を使えば、手作業の労力、時間、コストを節約できます。たまった文書を電子的に処理し、検索可能な文書に変換することで、情報を簡単に見つけられるようになり、企業は顧客や従業員により良い体験を提供できることでしょう。OCR技術をビジネスモデルに取り込むと以下のことができるようになります。

  • 手書きの文書を編集可能なデジタル文書に変換
  • 手書きで記入されたフォームをスキャン して、見直し、検証、分析、編集を自動化。手作業で文書を処理し、データを入力する時間を節約
  • データベースで言葉を素早く検索して、重要文書を探せます。紙のファイルを手作業で調べる必要はありません
  • データを安全に保護し一元化。デジタル文書は紛失や盗難にあう可能性が低くなります
  • 最も正確で最新の情報を入手

OCR技術を通じて、データへのアクセスがより簡単になり、企業は顧客により良いサービスを提供し、従業員の労力を減らすことができます。

https://main--dc--adobecom.hlx.page/dc-shared/fragments/seo-articles/acrobat-color-blade