TECH BLOG

MENU

オンプレクラウド

invoiceAgent

invoiceAgent AI OCRinvoiceAgent 文書管理

透明テキストつきPDFとは、その名の通りテキストデータが埋め込まれたPDFのことです。

埋め込まれたテキストデータは、invoiceAgent上でも便利に活用することができます。

この記事では、外見からは判断しづらい「透明テキストつきPDF」の見分け方について詳しくご紹介した後、invoiceAgent格納時のメリットについても解説します。

透明テキストつきPDFとは

透明テキストつきPDFとは、テキストデータが埋め込まれたPDFファイルのことです。「クリアテキストつきPDF」や、単に「テキストつきPDF」ということもあります。

英語では「Searchable PDF」と表現され、日本語でも「サーチャブルPDF」「検索可能なPDF」という別名で呼ばれることもあります。

元々はスキャンなどで画像データとして作成されたPDFを、OCR機能を持つソフトウェアなどで「テキストデータが埋め込まれた状態にする」そして「埋め込まれたテキストを文字列で検索可能な状態にする」ことから、そのような別名となっています。

見分け方のポイント

今日では、PDFは紙媒体への印刷用ファイルとしてだけではなく、メールやinvoiceAgent電子取引のようなサービスなどでデータのままやり取りされることも多くなっています。必ずしもOCR機能を使わずとも、テキストデータが埋め込まれていることがあるのです。

PDFが透明テキストつきかそうでないか確かめる為には、まず「どんなソフトで作成されたか」そして「どんなソフトで変換されたのか」に着目することがポイントとなります。

代表的な「透明テキストつきPDFと【なる】」例

元ファイルにデジタルテキストデータが含まれていて、システムで出力した場合は透明テキストつきになる場合が多くなります。

※DocumentConverterについて詳しくはこちら

 

代表的な「透明テキストつきPDFと【ならない】」例

元ファイルが画像であり、画像データのまま取り込んだり出力、変換した場合は透明テキストがつきません。

invoiceAgentマニュアル:アーカイブ文書の読み取り位置の補正

※近年ではスキャンすると自動的にOCR機能が走り、透明テキストつきPDFを作成してくれるスキャナー等も存在しています。

PDFを「作成しているソフトや元データ」は何か? デジタルかアナログか?「変換しているソフト」は何か?を確認し、透明テキスト付きPDFに対応しているかを調べてみましょう。

確認方法について

①選択・コピー・ペーストができるかどうか

Acrobat ReaderでPDFを開き、テキストの箇所を選択・コピー・ペーストすることができれば、透明テキストつきPDFです。

②フォントが埋め込まれているかどうか

Acrobat ReaderでPDFを開き、[文書のプロパティ]の[フォント]タブを確認します。

フォントが埋め込まれていれば、テキストデータが含まれています。(フォント埋め込みが無くても、テキストデータが含まれている場合もあります)

③[テキストとして保存]ができるかどうか

Acrobat ReaderでPDFを開き、[テキストとして保存]を行うことで、埋め込まれたテキストデータをtxtファイルとして確認することができます。

見分ける際の注意点

①文字列が画像として埋め込まれている場合がある

下図のCのように、一見テキストのように見えても、文字が画像として埋め込まれている場合があります。

見た目では判別しづらいため、しっかり確認しましょう。

②透明テキストの位置はずれている場合もある

透明テキストつきPDFは、下図のようにテキストデータがレイヤー状に重なった構造になっています。

「PDFを作成・変換するソフトウェア」によっては、見た目と透明テキストの位置がずれている場合もあるため確認の際は注意しましょう。

invoiceAgentでの活用ポイント

①全文検索

invoiceAgentに透明テキストつきPDFを格納すると、PDFファイル内の文字列を検索することができます

1ファイル内だけの検索ではなく、複数ファイルに跨って、ページ単位で検索することができます。

AND,OR,NOTといった演算子や*(ワイルドカード)を用いることもできます。

例えば、発注書の中で「[製品A]と[製品B]が両方あるページ、または[製品C]があるページが含まれるファイル」を抽出する、といった複雑な検索も可能です。

結果も見やすく便利な機能なので、ぜひ使ってみてください!

invoiceAgentマニュアル:全文検索用の文字列

 

②OCRの精度向上

invoiceAgentでは複数のOCRエンジンを使い分けることが可能です。

ABBYYはPDFに含まれる透明テキスト情報をそのまま読み取ることができるため、透明テキスト付きPDFに対して利用すると、大幅にOCR結果の精度を向上できます。

invoiceAgentマニュアル:OCRエンジンで読み取ることができる情報

下図のように、文字潰れ等で画像だと正しく読み取れないテキストも、透明テキストつきであれば読み取ることが可能です。

1lLiIⅠ!(半角数字の1、アルファベット小文字/大文字のエルとアイ、ローマ数字のⅠ、エクストラメーションマーク!)といった誤認識しやすい文字でも正しく識別することができます。

まとめ

本記事では透明テキストつきPDFについて、詳しい見分け方とinvoiceAgentでの活用方法をご説明しました。

普段お使いのPDFファイルが透明テキストつきかどうか、ぜひ確認してみてください。

透明テキストつきPDFでデジタル文書活用の幅を広げましょう!

この記事にリアクションしてみませんか?

What do you think of this post?
  • 分かりやすい (2)
  • 問題が解決した (2)
評価ありがとうございます!

みさき

invoiceAgent
プロフィールへ >

2019年入社のカスタマーサクセス担当です。製品機能を分かりやすくお伝え出来るように頑張ります!

Related article

Related article関連記事

Pick up

Pick upおすすめ記事

【Connect】開発コスト・運用コストを抑えたスクリプトの構築方法

公開:2025.02.06
更新:2025.02.06

分かりやすい

1

解決した

0
  • データ取り込み
  • データ加工

Dr.Sum

invoiceAgent【「業務を変える動画たち」シリーズ】記事まとめ

公開:2025.01.16
更新:2025.01.31

分かりやすい

0

解決した

0
  • 業務を変えるシリーズ

invoiceAgent

【脱Excel】MotionBoardの入力機能で業務アプリをつくる

公開:2024.08.05
更新:2024.08.05

分かりやすい

3

解決した

0
  • データ入力
  • デザイン
  • コンテナ

MotionBoard

Ranking

Rankingランキング

1

【まとめ】invoiceAgentのWeb APIを使ってみる

公開:2023.04.05
更新:2024.05.07

分かりやすい

12

解決した

1
  • API

invoiceAgent

2

invoiceAgentのWeb APIを使ってみる1 ログインとCookie処理

公開:2021.08.25
更新:2025.01.14

分かりやすい

5

解決した

3
  • API

invoiceAgent

3

invoiceAgentのWeb APIを使ってみる5 検索&ファイルダウンロード

公開:2022.11.02
更新:2024.05.07

分かりやすい

4

解決した

0
  • API

invoiceAgent

Info

Information

ウイングアーク1stからのお知らせ