MENU
透明テキストつきPDFとは、その名の通りテキストデータが埋め込まれたPDFのことです。
埋め込まれたテキストデータは、invoiceAgent上でも便利に活用することができます。
この記事では、外見からは判断しづらい「透明テキストつきPDF」の見分け方について詳しくご紹介した後、invoiceAgent格納時のメリットについても解説します。
透明テキストつきPDFとは、テキストデータが埋め込まれたPDFファイルのことです。「クリアテキストつきPDF」や、単に「テキストつきPDF」ということもあります。
英語では「Searchable PDF」と表現され、日本語でも「サーチャブルPDF」「検索可能なPDF」という別名で呼ばれることもあります。
元々はスキャンなどで画像データとして作成されたPDFを、OCR機能を持つソフトウェアなどで「テキストデータが埋め込まれた状態にする」そして「埋め込まれたテキストを文字列で検索可能な状態にする」ことから、そのような別名となっています。
今日では、PDFは紙媒体への印刷用ファイルとしてだけではなく、メールやinvoiceAgent電子取引のようなサービスなどでデータのままやり取りされることも多くなっています。必ずしもOCR機能を使わずとも、テキストデータが埋め込まれていることがあるのです。
PDFが透明テキストつきかそうでないか確かめる為には、まず「どんなソフトで作成されたか」そして「どんなソフトで変換されたのか」に着目することがポイントとなります。
元ファイルにデジタルテキストデータが含まれていて、システムで出力した場合は透明テキストつきになる場合が多くなります。
例1:Word(.docx)、Excel(.xlsx)、PowerPoint(.pptx)、メモ帳(.txt)などで作成したファイルを、[Microsoft Print to PDF]でPDFファイルに変換する
例2:Webページを、Microsoft Edgeの[PDFとして保存]や、Google Chromeの[PDFに保存]でPDFファイルに変換して保存する
例3:invoiceAgentのDocument Converterで変換する
※DocumentConverterについて詳しくはこちら
元ファイルが画像であり、画像データのまま取り込んだり出力、変換した場合は透明テキストがつきません。
例4:FAXの受領データをスキャナーでスキャンしたPDF
例5:invoiceAgentの位置補正機能を利用した時
invoiceAgentマニュアル:アーカイブ文書の読み取り位置の補正 |
※近年ではスキャンすると自動的にOCR機能が走り、透明テキストつきPDFを作成してくれるスキャナー等も存在しています。
PDFを「作成しているソフトや元データ」は何か? デジタルかアナログか?「変換しているソフト」は何か?を確認し、透明テキスト付きPDFに対応しているかを調べてみましょう。
Acrobat ReaderでPDFを開き、テキストの箇所を選択・コピー・ペーストすることができれば、透明テキストつきPDFです。
Acrobat ReaderでPDFを開き、[テキストとして保存]を行うことで、埋め込まれたテキストデータをtxtファイルとして保存し、内容を確認することができます。
下図のCのように、一見テキストのように見えても、文字が画像として埋め込まれている場合があります。
見た目では判別しづらいため、しっかり確認しましょう。
invoiceAgentに透明テキストつきPDFを格納すると、PDFファイル内の文字列を検索することができます。
1ファイル内だけの検索ではなく、複数ファイルに跨って、ページ単位で検索することができます。
AND,OR,NOTといった演算子や*(ワイルドカード)を用いることもできます。
例えば、発注書の中で「[製品A]と[製品B]が両方あるページ、または[製品C]があるページが含まれるファイル」を抽出する、といった複雑な検索も可能です。
結果も見やすく便利な機能なので、ぜひ使ってみてください!
invoiceAgentマニュアル:全文検索用の文字列 |
invoiceAgentでは複数のOCRエンジンを使い分けることが可能です。
ABBYYはPDFに含まれる透明テキスト情報をそのまま読み取ることができるため、透明テキスト付きPDFに対して利用すると、大幅にOCR結果の精度を向上できます。
invoiceAgentマニュアル:OCRエンジンで読み取ることができる情報 |
下図のように、文字潰れ等で画像だと正しく読み取れないテキストも、透明テキストつきであれば読み取ることが可能です。
1lLiIⅠ!(半角数字の1、アルファベット小文字/大文字のエルとアイ、ローマ数字のⅠ、エクストラメーションマーク!)といった誤認識しやすい文字でも正しく識別することができます。
「PDFを作成・変換するソフトウェア」によっては、見た目と透明テキストの位置がずれている場合もあります。透明テキストつきPDFをABBYYで読み取る際は、位置指定に注意しましょう。
本記事では透明テキストつきPDFについて、詳しい見分け方とinvoiceAgentでの活用方法をご説明しました。
普段お使いのPDFファイルが透明テキストつきかどうか、ぜひ確認してみてください。
透明テキストつきPDFでデジタル文書活用の幅を広げましょう!
Related article
Pick up
Ranking
Info