#111

PDFや画像の文章を文字起こし(テキスト化)できるツールと手順

PDFや画像の文章を文字起こし(テキスト化)できるツールと手順
#EBEBEB

PDFに埋め込まれた文章や、画像に写っている文章をコピーしたいとき、文字起こし(テキスト化)が必要になります。

この記事では、無料のツールを使ってPDFや画像に埋め込まれた文章を文字起こしする方法についてご紹介します。

文字起こしの方法は、PDFからテキストをコピーする方法や、PDF閲覧ソフトやスマホアプリの文字認識機能を使う方法など様々です。

場面にあわせて最適な方法を選び、作業を効率化しましょう。

PDFから文字起こしをする方法

まずは、PDFから文字起こしする方法をご紹介します。

PDFには、テキストを選択してコピーできるものと、できないものがあります。

それぞれのパターンごとに、文字起こしの方法を解説します。

1.テキストをコピー(選択)できる場合は、そのままコピーして貼り付ける

PDFのテキストを選択してコピーできる場合は、PDF閲覧ソフトやWebブラウザでPDFを開いてテキストをコピーし、Wordやテキストファイルに貼り付けられます。

ファイルの一部分のみを文字起こししたい場合には、この方法がオススメです。

ただし、レイアウトが複雑なPDFや複数ページにわたるPDFの場合は、文章の順番がバラバラになったり、余計なスペースが入ったりすることがあります。

そのような場合には、このあとにご紹介する別の方法を試してみてください。

なお、手順の解説では、無料のPDF閲覧ソフト「Adobe Acrobat Reader」を使ってご説明します。

Adobe Acrobat Readerは以下のページからダウンロードできます。

Adobe Acrobat Readerをダウンロードする

【手順1】テキストを選択・コピーする

Adobe Acrobat ReaderでPDFを開きます。

文字起こししたい部分のテキストを選択し、右クリックで「コピー」を選択します。

テキストを選択・コピーする

【手順2】Wordやテキストファイルに貼り付ける

PDFからコピーしたテキストをWordなどに貼り付けて保存します。

Wordやテキストファイルに貼り付ける

これで、PDFの文字起こしが完了しました。

2.テキストをコピー(選択)できない場合はOCR(文字認識機能)を使う

PDF内のテキストが選択できない場合には、OCR(文字認識機能)を使って文字起こしをしてみましょう。

OCRとは光学文字認識(Optical Character Recognition)の略で、画像データの中からコンピューターが文字を自動で識別し、編集可能なテキストデータに変換する仕組みを指します。

この方法を使うと、PDFだけでなくJPEGなどの画像からも文字起こしできます。

Adobe Acrobatの無料お試し版でOCR(文字認識機能)が使えるので、ここではAdobe Acrobatを使った文字起こしの手順を説明します。

(無料お試し版の利用可能期間は7日間です)

頻繁にOCR機能を使用するという方は、有料版のAdobe Acrobat Proへの切り替えをご検討ください。

【手順1】PDFを開く

Adobe AcrobatのOCRページの「無料ではじめる」ボタンをクリックし、無料お試しを開始します。

----

PDFを開く

PCのエクスプローラー上で「プログラムから開く」→「Adobe Acrobat」を選択し、文字起こししたいPDFを開きます。

※PDFではなく画像から文字起こしをしたい場合も、同じように画像を開きます。

「プログラムから開く」→「Adobe Acrobat」を選択し、文字起こししたいPDFを開く

【手順2】「ツール」→「スキャンとOCR」を選択する

ファイルを開いたら、「ツール」タブから「スキャンとOCR」を開きます。

「ツール」→「スキャンとOCR」を選択する

「スキャンとOCR」メニューから、「テキスト認識」→「このファイル内」を選択し、「テキスト認識」ボタンをクリックします。

「スキャンとOCR」メニューから、「テキスト認識」→「このファイル内」を選択し、「テキスト認識」ボタンをクリックする

OCR認識が実行され、テキストが選択・コピーできるようになります。

「テキスト認識」を行うとテキストが選択・コピーできるようになる

コピーしたテキストをWordやテキストファイルに貼り付ければ、文字起こしが完了です。

3.文字起こししたいページ数が多い場合はPDFをWordに変換する

何ページにもわたる長い文書を文字起こししたい場合には、PDFからテキストをコピーするよりも、PDFを直接Wordファイルに変換できるAdobe Acrobatの機能が便利です。

Wordファイルへの変換は有料版Adobe Acrobatの機能ですが、無料お試しでも利用できます。

【手順1】PDFを開く

Adobe Acrobatのサイトの「無料ではじめる」ボタンをクリックし、無料お試しを開始します。

その後、PCのエクスプローラー上で「プログラムから開く」→「Adobe Acrobat」を選択し、文字起こししたいPDFを開きます。


「Adobe Acrobat」で文字起こししたいPDFを開く

【手順2】Wordで書き出し、ファイルを保存する

「ファイル」メニューから「書き出し形式」→「Microsoft Word」→「Word文書」を選択し、Word文書(.docx)でファイルを保存します。

Wordで書き出し、ファイルを保存する

保存したファイルをWordで開くと、画像などのレイアウトは多少崩れますが、文字要素はレイアウトもほぼ元のファイルのままで編集可能な状態になります。

Word上で文字要素を編集できるようになる

これで、PDFをWord形式のファイルに変換できました。

なお、PDFをWordファイルに変換するには、Adobe Acrobatのオンラインツールを使う方法もあります。

Adobe Acrobatのオンラインツールの「PDFをWordに変換」にアクセスし、PDFをアップロードすればすぐにWordファイルに変換できます。

有料版の「Adobe Acrobat Pro」や「Adobe Acrobat Standard」をご利用の方なら、すぐにオンラインツールをお使いいただけます。

また「Adobe Acrobat Pro」や「Adobe Acrobat Standard」を利用していない方でも、オンラインツールを30日ごとに2回まで無料で利用できるので、ぜひお試しください。

Adobe Acrobatのオンラインツールを今すぐ使ってみる

スマホで撮影した画像から文字起こしする方法

スマホやタブレットで紙の資料を撮影するケースもあるでしょう。

その画像をスマホアプリで文字起こしすることも可能です。

ここでは、Adobeのスキャンアプリ 「Adobe Scan」を使って文字起こしする手順を解説します。

なお、Adobe Scanは、Adobe Scan上で撮影したドキュメントはもちろん、デバイス上にあらかじめ保存した画像を文字起こしすることもできます。

【手順1】Adobe Scanをインストールする

お使いのスマホにアプリをインストールします。

【iOS版】Adobe Scanを今すぐインストールする

【Android版】Adobe Scanを今すぐインストールする

【手順2】文字起こししたいドキュメントを撮影する

Adobe Scanを起動するとカメラが立ち上がるので、撮影したいドキュメントを画面内におさめます。

アプリが自動的にテキストを検出し、撮影範囲の設定や明るさの調整が行われます。

撮影範囲に問題がなければ、「続行」をタップします。

Adobe Scanで文字起こししたいドキュメントを撮影する

撮影を終了する場合は、カメラ画面の右下から撮影後のファイルを選択します。


カメラ画面の右下から撮影後のファイルを選択し、撮影を終了する

左下の写真アイコンをクリックして、デバイス上に保存された写真から選択することも可能です。

左下の写真アイコンをクリックし、デバイス上に保存された写真からも撮影後のファイルを選択できる

スキャンした画像は、画面下のツールを使って向きや明るさの調整、不要な余白の削除ができます。

画面下のツールを使って向きや明るさの調整、不要な余白の削除などを行う

画面下のツールを使って不要な余白の削除などを行う

問題なければ画面右上の「PDFを保存」をタップします。

画面右上の「PDFを保存」をタップする

【手順3】「テキストアクション」でOCR認識をする

保存されたPDFをタップして開きます。

Adobe Scan上で保存されたPDFをタップして開く

画面下のメニューから「テキストアクション」をタップすると、OCRによる文字認識が実行されます。

画面下の「テキストアクション」をタップし、OCRによる文字認識を実行する

あとは「テキストをコピー」をクリックすれば、クリップボードへコピーできます。

メモ帳などに貼り付ければ、文字起こしが完了です。

文字起こしがうまくいかない原因と対処法

ここまで解説してきたように、PDFや画像から文字起こしをするにはいくつかの方法があります。

ただ、これらの方法を試してみた際に、文字起こしがうまくできない、文字起こしした内容がおかしいといった事態が起こることがあります。

ここからは、トラブルが起こった際に考えられる原因と対処法を解説します。

テキストのコピーがうまくいかない原因と対処法

PDFからテキストがコピーできない場合や、正確に貼り付けできない場合は、ファイルそのものや書式に問題がないか確認しましょう。

【対処法1】OCRを実行する

PDF上で文字が選択できない場合は、ファイルが1枚の画像になっていることが考えられます。

その場合は、OCR(文字認識機能)のあるツールで文字認識を試してみてください。

Adobe Acrobatの無料お試し版でもOCRを実行できます。

【対処法2】保護を解除する

文字の選択はできるがコピーできない場合は、ファイルがパスワード保護されていると考えられます。

ファイルの作成者に保護を解除した状態のファイルを支給してもらうか、保護パスワードを教えてもらい、ファイルの保護を解除してください。

【対処法3】一旦Wordかテキストエディタに貼り付ける

PDFからテキストをコピーして他のアプリへ貼り付けした際に、同じ文言が何度も繰り返されたり、不要な空白が入ったりするなど、正確に再現できない場合があります。

これは、PDFの書式と貼り付け先アプリとの互換性が問題となっている可能性が考えられます。

PDFからコピーしたテキストを一旦Wordかテキストエディタに貼り付けると、問題なく再現できる場合があります。

OCRの認識がうまくいかない原因と対処法

OCRの認識がうまくできず、テキストが認識されなかったり、読み取られたテキストに間違いがあったりする場合は、元の画像に問題があると考えられます。

例えば画像が暗かったり、斜めから撮影していて文字がゆがんでいる場合には、テキストが正確に認識されません。

【対処法1】 Adobe Acrobatの補正機能を使う

PC上でOCR認識を実行する場合は、Adobe Acrobatの「ツール」→「スキャンと OCR」の補正機能を使うことで、OCRの精度を高められます。

以下は補正前と補正後の画像です。

<補正前>

書類のタイトルから箇条書き部分のテキストが暗くぼやけているため、OCR認識できません。

OCR認識されない画像の例

<補正後>

角度が補正され、文字のコントラストがはっきりしたことで、右上の小さい文字以外はすべてOCRで認識されるようになりました。

Adobe Acrobatで補正し、OCR認識されるようになった画像の例

補正方法の詳細は、こちらの記事で詳しく解説しています。

モバイルデバイスのカメラで撮影した文書内の写真の補正, Adobe Acrobat

【対処法2】 Adobe Scanで画像を調整する

Adobe Scanを使う場合には、Adobe Scan内にある機能を使って画像を調整することでOCRの精度を高められます。

例えば、「切り抜き」機能を使って不要な部分をカットしたり、「フィルター」で色味を変更したりできるので、それらの機能で調整してからOCRの認識をしてみましょう。

また、歪みや明るさのムラがない状態で撮影できるよう、撮影環境にも注意しましょう。

【対処法3】 OCR後のテキストを、元のドキュメントと照らし合わせて調整する

OCR機能やAIの進化によって、画像からの文字起こしはひと昔前と比べてかなり高精度になりました。

しかし、どうしても撮影時の状況や画質、テキスト要素の配置などに左右される部分があるため100%正確に読み取れるとは限りません。

OCRを使って文字起こしをした際は、必ず元のドキュメントと照らし合わせてチェックし、不正確な部分があれば手直ししましょう。

文字起こし機能を活用し、ドキュメント作成を効率化しましょう

PDFや画像からの文字起こしは、便利なツールとちょっとした知識があれば、カンタンにできます。

どんな文字起こしの方法がベストかは状況によって異なりますので、ぜひ今回ご紹介した内容を覚えておいてください。

なお、この記事で紹介したAdobe Acrobatの無料お試しを使ったOCR機能やWordへの出力は、有料版のAdobe Acrobatならいつでも利用できる機能です。

Adobe Acrobatは、今回ご紹介した機能の他にも、文書の作成や管理に役立つ機能を多数備えています。

ぜひドキュメント作成の効率化に役立ててください。

Adobe Acrobatについて詳しく見る