『SPAの導入を検討しているけど、OCRの精度をもう少しあげられないかな』
『OCR設定のポイントは?』
と疑問に感じていませんか。SPAでは適切にOCR設定をすることで劇的に読み取り精度を向上できます。当記事では、読み取りレイアウトの設定方法をはじめとして、読み取り精度向上のためのおすすめポイントをご紹介します。
弊社製品のSPAに限らず、OCR製品で読み取り精度を常に100%にするのは一般的に難しいといわれています。なぜなら、人間の目でみても読取困難な文字や読取対象外の文字種が存在する、対象文書に汚れが混じりノイズとして識別されるなど様々なOCRを妨げる理由があるからです。
OCR製品では常に100%の読み取り精度は目指せなくても、限りなく100%に近い読み取り精度を目指すことはできます。以下ではSPA OCRの読み取り精度をあげるためのポイントをいくつか選別してご紹介します。
OCRは4つのOCRエンジンを提供しています。各OCRエンジンはフィールド単位で切り替えることができますので、それぞれのエンジンが得意とする領域を使い分けることで、全体の認識率を向上させることができるでしょう。
フィールドに対して最も適切なデータタイプ(または文字種)を指定しましょう。数値、カタカナ、メールアドレス等、データタイプを指定することにより、読み取り精度を向上させることができます。各OCRエンジンごとのデータタイプは以下のとおりです。
数字や漢字などを標準的にデータタイプとして備えているOCRエンジンが多いです。一方で、OCRエンジンによっては、銀行名や住所など、より詳細に対象を絞ったデータタイプを備えている場合もあります。可能な限り対象を絞ったデータタイプを利用することで読み取り精度を大きく向上させられる点にご留意ください。
そもそも読み取りづらい帳票に対して読み取り精度向上の策をとったとしても根本的な解決になりません。したがって、デザインの変更や記載方法の変更など、運営や帳票がOCRに歩み寄る必要があります。
運営や帳票がOCRに歩み寄るポイントをご紹介します。
自由記述の記入欄は文字の記載位置が乱れ、OCRの読み取り精度の低下につながります。したがって、文字の記載位置を均一化するために、ボックスの配置がおすすめです。ボックスを配置することで、文字毎の識別がしやすくなり大きく読み取り精度は向上します。OCRエンジンのDEEP READでは、1文字ごとにデータタイプを指定する機能があるため、合わせてご検討いただけるとよいでしょう。
カンマや小数点などの記号はOCRの読取精度低下につながります。したがって、記号の記載は控えた方がよいでしょう。カンマや小数点などの記号に限らず、打消し線などボックス内のノイズになるであろう記載は記載しないことをおすすめします。
ボックスを文字がはみ出るとOCRの読取精度低下につながります。したがって、ボックスの背景にお手本となる下書きを記載するのがおすすめです。ただし、背景の文字が濃すぎると誤認識につながる恐れがあります。したがって、OCRエンジンが誤認識しない範囲で下書きにする点に注意が必要です。
読取範囲の色もOCRの読み取り精度に影響を与えます。文字と背景のコントラストをはっきりさせる、文字の色を濃くするなど色の側面で工夫できる点はいくつかありますので検討が必要です。経験則になりますが、とりわけコントラストをはっきりさせると読み取り精度が大きく向上するように思います。ご参考まで。
帳票レイアウトを改善するだけでOCRの読み取り精度が劇的に向上することはよくあります。『なかなか読み取り精度があがらないな・・』とお悩みの場合はぜひ帳票レイアウトの変更をご検討ください。
Related article
Pick up
Ranking
Info