AI-OCRで書類をデータ化する流れと注意点

「AI-OCRで書類をデータ化!成功の勘所とは?」では読み取り対象の数や読み易い項目についてご紹介しました。
「【事例付】invoiceAgent OCRの読取レイアウトの設定方法|ポイントを徹底解説!」では識字率を高めるためのテクニックについてご紹介しました。

AI-OCRで書類をデータ化!成功の勘所とは?

🕒️2020/7/13

紙の書類に眠っている情報をコンピューターで扱いたい。受領した紙を見ながらパソコンにデータを打ち込む作業を効率化したい。そんな時に「AI-OCR」と言うキーワードを耳にして、これは業務改善に使えるんじゃないか?そう考えた方もきっと多いのではないでしょうか。更には、実際に取り組んだけれど期待通りの結果を得られなかった、なんて方も少なくないかもしれません。OCRの技術は昔からありましたが、ここ最近AIを搭載した事で認識率が飛躍的に向上しました。しかしながら、何でも完全に読める訳では無いと言う事も明らかになって...

WingArc TECH BLOG

【事例付】invoiceAgent OCRの読取レイアウトの設定方法|ポイントを徹底解説!

🕒️2021/6/8

『invoiceAgentの導入を検討しているけど、OCRの精度をもう少しあげられないかな』『OCR設定のポイントは?』と疑問に感じていませんか。invoiceAgentでは適切にOCR設定をすることで劇的に読み取り精度を向上できます。当記事では、読み取りレイアウトの設定方法をはじめとして、読み取り精度向上のためのおすすめポイントをご紹介します。1.invoiceAgent OCRでは常に100%の読取精度は難しい弊社製品のinvoiceAgentに限らず、OCR製品で読み取り精度を常に100%にするのは一般的に難しいといわれています。なぜなら、人間の目でみても読取...

WingArc TECH BLOG

今回はスキャン時の注意事項といったOCRの前後にも注意が必要な処理があり、その設定のポイントについてご紹介します。

スキャン～OCR～データ連携処理の流れ
1.「帳票をスキャン」する際の設定のポイント
2.読み取りの前処理
3.OCR処理
4.データ連携
5.通知・後処理

スキャン～OCR～データ連携処理の流れ

まずは以下の図がデータ化/活用の流れになります。

1.帳票のスキャン

2.読み取りの前処理

3.OCR処理

4.データ連携

5.通知/後処理

紙の状態からデータの活用迄考えると、OCRの前後にも必要な処理があることがお分かりいただけると思います。

1.「帳票をスキャン」する際の設定のポイント

解像度

解像度は300～400dpiで読み取ってください。

「解像度を上げればもっと読めるようになるんじゃないか?」という発想になりがちですが、600dpiにもなるとOCR精度はほぼ上がらず処理時間だけが長くなってしまいます。逆に解像度を下げ200dpi程度にしてしまうと小さな文字が判別できなくなってしまいます。

ファイルフォーマット

ファイルフォーマットはPDFファイル、画像ファイル(BMP形式、JPEG形式、PNG形式、TIFF形式)を利用することができます。
どのフォーマットでも読み取り精度に影響はありませんが、長期保管には一般的にTIFFとPDFが推奨されています。

色や濃度の調整

両面印刷の帳票で印字が濃く裏写りしてしまったり、印字が薄く判別しずらいといった場合、スキャナの設定で濃度を調整することで精度を上げられる場合があります。

参考:スキャナメーカーによっては「裏写り防止機能」といった機能が搭載されている場合があります

複合機の設定を確認し調整してみてくださいね。

2.読み取りの前処理

真っ直ぐにスキャンしたつもりでも微妙に傾いてしまったり、縦横の方向を間違えてしまったりといったことがあると思います。
またスキャナメーカーの違いによって余白の幅が異なり、画像のサイズが微妙に変わってしまう場合もあります。

そのような状態のままOCRを行うと読取位置がずれてしまい正確な読取を行うことができなくなってしまいます。

それを解決するのがinvoiceAgentの位置補正機能です。

文書設定にある「位置補正を行う」設定をONにして取り込むことで傾き、回転、拡大縮小といった補正を自動的に行うことができます。

3.OCR処理

OCR自体の設定のポイントについては以下の記事を参照してください。

AI-OCRで書類をデータ化!成功の勘所とは?

🕒️2020/7/13

WingArc TECH BLOG

【事例付】invoiceAgent OCRの読取レイアウトの設定方法|ポイントを徹底解説!

🕒️2021/6/8

WingArc TECH BLOG

今回ここでお伝えしたいのは「OCRの読み取り精度は100%ではない」ということです。
そのため間違いが許容されないという前提であれば「目視での確認」が必ず必要になります。

invoiceAgentではOCRした箇所を効率良く確認できるよう専用の画面があります。

OCR対象の画像箇所とデータ化した結果を並べて表示できるので、効率良く確認できます。並べる方向も目線の移動を最小限にするなら縦並び、画像とデータ化した結果を明確に分けて確認するなら横並びと表示を切り替えて確認できます。

4.データ連携

OCRでデータ化すると、そのデータを二次活用したいといったケースが多くあります。
invoiceAgentではOCR結果を画面から、もしくはWEB APIを利用してCSVでダウンロードすることができます。

5.通知・後処理

帳票の枚数が多い場合等はOCRの処理に時間がかかることがあります。

invoiceAgentには通知の設定があり、OCRの処理が終わった後でメール通知を行うといった設定ができるので画面の前に張り付いている必要はありません。

また処理後に実行するアプリケーションの指定もあるので、OCRの処理後にRPAで他システムへの連携処理を呼び出すといったこともできます。

※invoiceAgentのDistributorで振り分けを行った場合は、処理後に実行するアプリケーションの指定を行うことはできません。

今回はAI-OCRで書類をデータ化する流れと注意点についてご紹介させていただきました。既にデータ化を行っている方は、この記事を参考に設定の見直しを行ってみてくださいね。これからの方はまずはこの記事を見ながらトライしてくみてください!

※本記事の情報は、2021年07月05日現在のものです。(SPA V10.5.1 / SPA Cloud 2021 June Update)

TECH BLOG

Search

AI-OCRで書類をデータ化する流れと注意点

スキャン～OCR～データ連携処理の流れ

1.「帳票をスキャン」する際の設定のポイント

解像度

ファイルフォーマット

色や濃度の調整

2.読み取りの前処理

3.OCR処理

4.データ連携

5.通知・後処理

Related article関連記事

Pick upおすすめ記事

【Connect】開発コスト・運用コストを抑えたスクリプトの構築方法

invoiceAgent【「業務を変える動画たち」シリーズ】記事まとめ

【脱Excel】MotionBoardの入力機能で業務アプリをつくる

Rankingランキング

【まとめ】invoiceAgentのWeb APIを使ってみる

透明テキストつきPDFとは? 見分け方と活用メリットを解説!

invoiceAgentのWeb APIを使ってみる1　ログインとCookie処理

Information

Search

AI-OCRで書類をデータ化する流れと注意点

スキャン～OCR～データ連携処理の流れ

1.「帳票をスキャン」する際の設定のポイント

解像度

ファイルフォーマット

色や濃度の調整

2.読み取りの前処理

3.OCR処理

4.データ連携

5.通知・後処理

Related article関連記事

【事例付】invoiceAgent OCRの読取レイアウトの設定方法|ポイントを徹底解…

文書から読み取った情報を加工したい～置換/読み替え機能のご紹介～

権限パスワードで保護されたPDFファイルにタイムスタンプ付与しよう

Pick upおすすめ記事

【Connect】開発コスト・運用コストを抑えたスクリプトの構築方法

invoiceAgent【「業務を変える動画たち」シリーズ】記事まとめ

【脱Excel】MotionBoardの入力機能で業務アプリをつくる

Rankingランキング

【まとめ】invoiceAgentのWeb APIを使ってみる

透明テキストつきPDFとは? 見分け方と活用メリットを解説!

invoiceAgentのWeb APIを使ってみる1 ログインとCookie処理

Information

invoiceAgentのWeb APIを使ってみる1　ログインとCookie処理