★★★:よくある

『SPAの導入を検討しているけど、OCRの精度をもう少しあげられないかな』
『OCR設定のポイントは?』
と疑問に感じていませんか。SPAでは適切にOCR設定をすることで劇的に読み取り精度を向上できます。当記事では、読み取りレイアウトの設定方法をはじめとして、読み取り精度向上のためのおすすめポイントをご紹介します。

1.SPA OCRでは常に100%の読取精度は難しい

弊社製品のSPAに限らず、OCR製品で読み取り精度を常に100%にするのは一般的に難しいといわれています。なぜなら、人間の目でみても読取困難な文字や読取対象外の文字種が存在する、対象文書に汚れが混じりノイズとして識別されるなど様々なOCRを妨げる理由があるからです。

2.SPA OCRの読み取り精度を上げるには?

OCR製品では常に100%の読み取り精度は目指せなくても、限りなく100%に近い読み取り精度を目指すことはできます。以下ではSPA OCRの読み取り精度をあげるためのポイントをいくつか選別してご紹介します。

ポイント①:読み取り範囲に合わせたOCRエンジンを使う

ポイント①:読み取り範囲に合わせたOCRエンジンを使う

OCRは4つのOCRエンジンを提供しています。各OCRエンジンはフィールド単位で切り替えることができますので、それぞれのエンジンが得意とする領域を使い分けることで、全体の認識率を向上させることができるでしょう。各OCRエンジンが得意とする領域の詳細は以下の資料を参照ください。

参照URL:1.3.3. 文書のデータ化 (wingarc.com)

ポイント②:読み取り範囲に合わせたデータタイプ(文字タイプ)を使う

ポイント②:読み取り範囲に合わせたデータタイプ(文字タイプ)を使う

フィールドに対して最も適切なデータタイプ(または文字種)を指定しましょう。数値、カタカナ、メールアドレス等、データタイプを指定することにより、読み取り精度を向上させることができます。各OCRエンジンごとのデータタイプは以下のとおりです。

各OCRエンジンのデータタイプ

数字や漢字などを標準的にデータタイプとして備えているOCRエンジンが多いです。一方で、OCRエンジンによっては、銀行名や住所など、より詳細に対象を絞ったデータタイプを備えている場合もあります。可能な限り対象を絞ったデータタイプを利用することで読み取り精度を大きく向上させられる点にご留意ください。

ポイント③:読み取りレイアウトを修正する

そもそも読み取りづらい帳票に対して読み取り精度向上の策をとったとしても根本的な解決になりません。したがって、デザインの変更や記載方法の変更など、運営や帳票がOCRに歩み寄る必要があります。

3.SPA OCRのレイアウト修正のポイント

運営や帳票がOCRに歩み寄るポイントをご紹介します。

ポイント①:ボックスを配置する

ポイント①:ボックスを配置する

自由記述の記入欄は文字の記載位置が乱れ、OCRの読み取り精度の低下につながります。したがって、文字の記載位置を均一化するために、ボックスの配置がおすすめです。ボックスを配置することで、文字毎の識別がしやすくなり大きく読み取り精度は向上します。OCRエンジンのDEEP READでは、1文字ごとにデータタイプを指定する機能があるため、合わせてご検討いただけるとよいでしょう。

ポイント②:記号を書かない

ポイント②:記号を書かない

カンマや小数点などの記号はOCRの読取精度低下につながります。したがって、記号の記載は控えた方がよいでしょう。カンマや小数点などの記号に限らず、打消し線などボックス内のノイズになるであろう記載は記載しないことをおすすめします。

ポイント③:背景に目安を書く

ポイント③:背景に目安を書く

ボックスを文字がはみ出るとOCRの読取精度低下につながります。したがって、ボックスの背景にお手本となる下書きを記載するのがおすすめです。ただし、背景の文字が濃すぎると誤認識につながる恐れがあります。したがって、OCRエンジンが誤認識しない範囲で下書きにする点に注意が必要です。

ポイント④:色を調整する

ポイント④:色を調整する

読取範囲の色もOCRの読み取り精度に影響を与えます。文字と背景のコントラストをはっきりさせる、文字の色を濃くするなど色の側面で工夫できる点はいくつかありますので検討が必要です。経験則になりますが、とりわけコントラストをはっきりさせると読み取り精度が大きく向上するように思います。ご参考まで。

4.SPA OCRのレイアウトを修正して読み取り精度を上げよう!

帳票レイアウトを改善するだけでOCRの読み取り精度が劇的に向上することはよくあります。『なかなか読み取り精度があがらないな・・』とお悩みの場合はぜひ帳票レイアウトの変更をご検討ください。

より詳細なOCRの読み取り精度の向上を行いたい場合は以下が参考になります。

参照URL:1.3.3. 文書のデータ化 (wingarc.com)
参照URL:SPA_OCR機能によるデータ化のポイント.pdfをダウンロード