spatips002

★★★:よくある

AI-OCRで書類をデータ化!成功の勘所とは?」では読み取り対象の数や読み易い項目についてご紹介しました。
【事例付】SPA OCRの読取レイアウトの設定方法|ポイントを徹底解説!」では識字率を高めるためのテクニックについてご紹介しました。

今回はスキャン時の注意事項といったOCRの前後にも注意が必要な処理があり、その設定のポイントについてご紹介します。

スキャン~OCR~データ連携処理の流れ

まずは以下の図がデータ化/活用の流れになります。

OCR処理の流れ

1.帳票のスキャン

2.読み取りの前処理

3.OCR処理

4.データ連携

5.通知/後処理


紙の状態からデータの活用迄考えると、OCRの前後にも必要な処理があることがお分かりいただけると思います。

1.「帳票をスキャン」する際の設定のポイント

解像度

解像度は300~400dpiで読み取ってください。

「解像度を上げればもっと読めるようになるんじゃないか?」という発想になりがちですが、600dpiにもなるとOCR精度はほぼ上がらず処理時間だけが長くなってしまいます。逆に解像度を下げ200dpi程度にしてしまうと小さな文字が判別できなくなってしまいます。

ファイルフォーマット

ファイルフォーマットはPDFファイル、画像ファイル(BMP形式、JPEG形式、PNG形式、TIFF形式)を利用することができます。
どのフォーマットでも読み取り精度に影響はありませんが、長期保管には一般的にTIFFとPDFが推奨されています。

色や濃度の調整

両面印刷の帳票で印字が濃く裏写りしてしまったり、印字が薄く判別しずらいといった場合、スキャナの設定で濃度を調整することで精度を上げられる場合があります。

参考:スキャナメーカーによっては「裏写り防止機能」といった機能が搭載されている場合があります

複合機の設定を確認し調整してみてくださいね。

2.読み取りの前処理

真っ直ぐにスキャンしたつもりでも微妙に傾いてしまったり、縦横の方向を間違えてしまったりといったことがあると思います。
またスキャナメーカーの違いによって余白の幅が異なり、画像のサイズが微妙に変わってしまう場合もあります。

そのような状態のままOCRを行うと読取位置がずれてしまい正確な読取を行うことができなくなってしまいます。

それを解決するのがSPAの位置補正機能です。

位置補正

文書設定にある「位置補正を行う」設定をONにして取り込むことで傾き、回転、拡大縮小といった補正を自動的に行うことができます。

参考:カメラで撮影したような奥行きのある画像は「台形補正を行う」設定をONにすることで補正できます。

参考(マニュアル):位置補正を行う(傾き、回転、拡大・縮小)
参考(マニュアル):12.2.1.2. [文書設定]タブ

3.OCR処理

OCR自体の設定のポイントについては以下の記事を参照してください。

AI-OCRで書類をデータ化!成功の勘所とは?
【事例付】SPA OCRの読取レイアウトの設定方法|ポイントを徹底解説!


今回ここでお伝えしたいのは「OCRの読み取り精度は100%ではない」ということです。
そのため間違いが許容されないという前提であれば「目視での確認」が必ず必要になります。

SPAではOCRした箇所を効率良く確認できるよう専用の画面があります。

データ修正UI

OCR対象の画像箇所とデータ化した結果を並べて表示できるので、効率良く確認できます。並べる方向も目線の移動を最小限にするなら縦並び、画像とデータ化した結果を明確に分けて確認するなら横並びと表示を切り替えて確認できます。

また誤認識した箇所を修正保存することもできます。

参考(マニュアル):SVF検索フィールドの値の編集画面を表示する

4.データ連携

OCRでデータ化すると、そのデータを二次活用したいといったケースが多くあります。
SPAではOCR結果を画面から、もしくはWEB APIを利用してCSVでダウンロードすることができます。

CSVエクスポート

必要な項目を追加、削除できるので取り込み先に応じたフォーマットへ調整することができます。

参考(マニュアル):13.1.2.14. [SVF検索フィールドデータのCSVファイル出力]ダイアログ

5.通知・後処理

帳票の枚数が多い場合等はOCRの処理に時間がかかることがあります。

SPAには通知の設定があり、OCRの処理が終わった後でメール通知を行うといった設定ができるので画面の前に張り付いている必要はありません。

また処理後に実行するアプリケーションの指定もあるので、OCRの処理後にRPAで他システムへの連携処理を呼び出すといったこともできます。

※SPA CloudのDistributorで振り分けを行った場合は、処理後に実行するアプリケーションの指定を行うことはできません。

後処理

参考(マニュアル):12.2.2.1.4. [後処理]タブ(Bridgeサービスを選択した場合)
参考(マニュアル):12.2.2.2.4. [後処理]タブ(Distributorを選択した場合)

今回はAI-OCRで書類をデータ化する流れと注意点についてご紹介させていただきました。既にデータ化を行っている方は、この記事を参考に設定の見直しを行ってみてくださいね。これからの方はまずはこの記事を見ながらトライしてくみてください!

※本記事の情報は、2021年07月05日現在のものです。(SPA V10.5.1 / SPA Cloud 2021 June Update)