★★★:よくある

紙の書類に眠っている情報をコンピューターで扱いたい。受領した紙を見ながらパソコンにデータを打ち込む作業を効率化したい。

そんな時に「AI-OCR」と言うキーワードを耳にして、これは業務改善に使えるんじゃないか?そう考えた方もきっと多いのではないでしょうか。更には、実際に取り組んだけれど期待通りの結果を得られなかった、なんて方も少なくないかもしれません。

OCRの技術は昔からありましたが、ここ最近AIを搭載した事で認識率が飛躍的に向上しました。しかしながら、何でも完全に読める訳では無いと言う事も明らかになっています。

人と同じで、OCRにも向き不向きがあります。
人と同じで、苦手な事を無理やりやらせても結果は出ません。 

OCRを活用して業務改善に繋げるためにはどういう考え方で臨めば良いのか。数々の失敗を経験して学んだ、OCRの活用を成功に導くためのポイントを今回は紹介していきます。

 1.対象を絞る

成功に導く、そのために最初に考える事は対象の絞り込みです。いきなり期待を裏切る事を言うかもしれませんが、OCRの認識率は100%ではありません。技術は進歩しましたが、まだそこまでは達していません。

となると、OCRを行った結果は、誰かが確認し誤りを訂正する必要があるのです。

これは対象の文字数が多ければ確認工数も多くなりますので、あまり欲張るとかえって非効率になってしまうと言う事になります。従って「不要な情報はOCRしない」と意識しておくとスマートです。

まず、OCRが本当に必要な書類はどれか、そして、その中で必要な項目はどれかを絞り込んでいきます。
次に、OCRに任せた方が良いもの、人に任せた方が良いものを分類していきます。

OCRに任せた方が良いものについては、以降で説明していきます。 

2.読み易いところから読む

OCRにも得意不得意があります。例えば、備考欄のように自由に記入される文章の読み取りは不得意です。これは文字の種類や量、行数が多様でデータとして不安定なためで、それによりOCRの結果も不安定になります

とすると「安定した文字列は読み易い」となるのですが、それは具体的にどういう事か下図を例に考えてみます。 この図の中の項目について、読み取り易さを順位づけしてみると、
4位は…備考です。前述のとおり、文字の種類や量、行数が様々ある(不安定なデータである)ため、ここでは最も読み取り難い(間違えやすい)です。
3位は…住所と氏名。備考ほど自由では無いのですが、登場する文字の種類や数が多いため3位としました。
2位は…郵便番号。数字のみでシンプル、桁数も7で固定されており分かりやすいです。
1位は…バーコード。これは読めた段階でほぼ100%の精度を期待できます。バーコードによっては値のチェック機構もあるため、安定感抜群と言えます。

以上のように、内容によって読み取り易さには違いがあります。この点を認識しておくと、次のような考え方に繋がります。
OCRの対象は、できるだけ読み易い箇所を選ぶ、又は読み易い内容へ変更する」 

例えば、「都道府県名」を取得したい場合、素直に「住所」欄から読むのではなく、「郵便番号」から導く方が精度が高くなります。OCRで郵便番号を読み取り、それを後続のシステム等で住所情報に変換し、そこから都道府県を取得すると言うような考え方です。
その他の例としては、品目情報を読み取る場合は「品名」では無く「品番」を読んだり、社員情報の場合は「社員名」では無く「社員番号」を読んだりと言うように、番号やコード類を活用すると精度が高まります。

では、既存の書類の中に、このような番号やコード類が無かったらどうするのか?と言う事ですが、その場合は書類のレイアウト変更を検討しましょう。

例えば、社員情報として「社員名」を書く欄があれば「社員番号」に変更できないかとか、また、印字する値はバーコードやQRコードで出力できないかと発想してみます。身近なところでは、QRコードはMicrosoft Excelや家庭用ラベルプリンター等からも出力できるので、書類によっては取り組みやすい内容だと思います。 

3.記入欄を工夫する

こちらも帳票レイアウトに関する話です。

例えば、手書きの書類では、記入欄がフリースペースだと文字が安定しないので、図のように区切ってみます。すると、書きやすくなって文字が安定します。
また、数字を書く欄では、誤読しやすいカンマや小数点を極力記入させないようにすると良いです。こちらも図のように区切ってしまえば、カンマや小数点を書く事が無くなり、OCRの読み取り精度が向上します。

もちろん、他社から受け取る書類や今までの慣例から、レイアウトに手を加えられないものもあると思います。

ただ、そのような場合もレイアウトの変更を打診してみると、意外に受け入れてもらえる事がありますので、こういった機会に一度検討してみてはいかがでしょうか。上手くレイアウトを変更できれば、劇的に業務を効率化できるかもしれませんので、試してみる価値はあると思います。

今回のまとめ

書類は今まで人間にとって扱いやすい内容で作られていました。そのため、OCRを使用する場合は、今までどおりの内容では上手くいかない事があります。

また、AI-OCRと言う単語から、私たちはAIに実力以上の事まで期待しがちですが、OCRにも得意不得意がある事を理解し、できるだけ得意な範囲を任せるようにすると、OCRは効果を発揮し、結果、私たちの業務を効率化してくれます。

今回の3つのポイントは、何れも私たち人間側へ事前の配慮を求める内容とも言えます。ツールの使い方を議論する前に、上流の業務要件からアプローチする方が大きな効果が得られますので、導入の際にはぜひ検討してみてください。私たちが少しOCRへ歩み寄ることができれば、成功にもグッと近づきます。