企業向けOCR10年のプロがOCRのすべてを解説しました

最近、AI OCRという言葉をニュースで耳にしたりGoogleがOCRサービスを提供したりと、にわかにOCR業界が盛り上がっています。

「会社のあの資料を全部OCRしたいな！」

と思われている企業の方もいるかも知れません。

しかし、OCRって何？どう有益なの？と、企業向けのOCRに関する情報が少なすぎて良くわからないですよね。

実は、OCR処理には得意なことと不得意なことがあります。

例えば、書類や冊子をテキストデータ化したいとき、OCR処理に向いていないものもあります。

逆に、OCRの方が良いのにデータ入力してテキストを作成してしまったりするかもしれません。

そこで、職場でのOCR処理や業者に委託する際の参考にしてみてもらうべく、業界10年以上の私が持ちうるOCR処理のすべてを解説します。

網羅的に余すところなく、OCR処理の決定版とも言える『OCR処理の解説大全！』を執筆しましたのでぜひご覧ください。

執筆者：長屋好則
株式会社雲紙舎代表

2009年よりOCR・スキャン専門サービスを立ち上げ、2013年より法人雲紙舎の代表を務めている。設計事務所や国立図書館、大学の研究資料など過去2000件以上の電子化・二次利用をサポート。

OCRって何がすごいの？改めてご説明しますね。

OCRとは、「光学文字認識（Optical Character Recognition）」の略語で、印刷文字文書の画像を文字コードに変換する技術のことです。

なんだか凄そう・・・と一見思いますが、つまりは「文書画像から文書をテキスト文字にする技術」のことです。

例えば、ある本を１冊スキャンしPDFファイルにした際に、その冊子のすべてのページの印刷文字を、テキスト文字に変換することできる訳です。

そうすれば、内容をすぐに検索できるようになりますから凄く便利ですよね。

もしOCRという技術が無かったら、本１冊の情報をテキスト情報にするには、データ入力して作成するしかありません。

本１冊５０万文字をデータ入力したら、時間と人件費がかなりのものに。

そんな時、OCR処理をすれば一瞬で、同じ精度で、低コストでテキストデータにすることが可能です。

OCRは戦前から研究されていた！？手書き文字まで対応できるよう進化

※OCRの歴史は、個人的には面白かったので、かんたんな概要だけ記載しましたので興味がある人は調べてみると良いと思います。

OCRの研究が始まったのはなんと戦前です！

当時の日本はどっぷりと紙文化だったため、必要な資料を見つける作業にかなりの時間を割いていたものと思われます。

そこでデータ入力と比較してコストが安いにもかかわらず精度が高いOCRにスポットライトがあたり、研究が開始されました。

ただしこの時期はまだ研究対象としてのOCRでした。

それが、1990年代に入ってパソコンやインターネットが登場したことで、一気に私達にとって身近な技術となりました。それまでは研究段階だったものが実用段階にステップアップしたのです。

インターネットは検索の世界ですから、印刷文字の文書画像をテキスト化する技術は非常に相性が良かったんです。ここでOCRという言葉とともに、OCR処理の精度も上がっていきます。

さらにOCRが加速したのが2015年頃、AI（人工知能）の登場です。

ディープラーニング（深層学習）の登場で、手書き文字のOCR処理も高精度で行えるようになりました。

ここまでくると、OCRに出来ないことがないんじゃないか、というくらい進化しています。

この20年のIT技術の進化とOCRには密接な関係があるので、今後も進化し続けていくOCRにご期待下さい。

その紙資料はこうやってテキストデータになる！OCR処理の工程

この章では、ＯＣＲ処理が具体的にどのような処理をしているのか、その仕組みを説明していきたいと思います。

若干マニアックですが、知っておくとスキャン業者との話し合いの際に何を言っているのか判断できるようになれます。

ＯＣＲ処理の工程は、全部で５つです。

（１）まずは紙情報を画像データにする（スキャン）
（２）画像化されたページのレイアウトを解析する
（３）行単位で切り出す※みじん切りの要領
（４）文字単位で切り出し※みじん切りの要領
（５）切り出した文字に合致する文字の照らし合わせ

（１）：紙の情報をOCRするには、まずはデータ化しなくてはいけません。

スキャナーでスキャンしたり、スマートフォンのカメラで撮影し、ＰＤＦやＪＰＥＧ、ＴＩＦＦなどの画像ファイルにします。

（２）：スキャンされた画像ファイルをOCRソフトに読み込み、文章のレイアウトを解析します。

※レイアウトとは、１段組みなのか、２段組みなのか、縦書きなのか、横書きなのか、画像や図、表があるのかどうか、ルビが付いているかといったことです。

専用のソフトを使い自動解析したり、人間がレイアウト解析をおこない専用ソフトに設定したりします。

ちなみにですが、まだまだ人間が解析した方がソフト解析より正確です。

（３）：レイアウトの解析結果をもとに、１行１行を画像として切り出します。

※イメージはみじん切りです。

（４）：切り出された各行の画像から、各文字を切り出し、文字単位で画像にします。

※イメージはみじん切りです。

（５）：最後に、各文字の画像にパターンが合致する文字を照らし合わせて、該当するテキスト文字を選出していきます。

OCR精度で大切な工程は（２）です。

一般的に、OCRの精度が低い場合、（２）のレイアウト解析の精度が低いからだと思って間違いないです。

OCR処理の精度は１００％を目指さない方が良い

「こちらのＯＣＲサービスの認識精度はどれくらいでしょうか」

この質問はよく聞かれる問い合わせのナンバー３に入るのですが、残念ながらこの質問にはすぐにはお答えできません。

なぜなら、①レイアウト、②紙の状態、③ご予算、によって精度は大きく変わってきてしまうからです。

例えば、以下のような２冊の本があったとします。

本の状態がまったく異なるため、この２冊のＯＣＲの認識精度はかなり変動します。

１冊目：１９４５年に出版された書籍。

印刷文字は、最近のフォントではなく、紙は黄ばんでいて、文字もかすれています。

２冊目：１９９９年に出版された大学の論文冊子。

印刷文字は、普段見慣れているフォントで、紙の状態はよく、文字もかすれていません。

もちろん２冊目の方がＯＣＲの認識結果は良いです。

本の状態によって認識結果の精度は大きく変わるため、ＯＣＲ処理をしたい本についてお聞きしますので、そのあとで精度についてお答えできると思います。

ちなみにこの２冊目の冊子であれば、９８％の認識精度を出すことが出来るでしょう。

この９８％の精度を、目視で突き合わせ校正をし、９９．９８％にすることも可能ですが、当然ながら費用がかかります。

３０万文字の小説を突き合わせ校正したら、約１５万円はかかりますので、そこにお金を使うより、９８％で良しとするという判断も良いと思います。

OCR精度は簡単に９８％まで行きますが、そこから１００％に近づけるのはなかなかの費用が掛かってしまいます。

つまり、認識精度をあげることは可能で、あとは本の状態とご予算次第と考えてください。

当然ながら、比較的最近の本で状態がよくレイアウト解析しやすいものは、認識精度が高くなり結果的に費用もあまりかかりません。

ＯＣＲ精度を上げるためにOCR業者がやるべきこと

それでは、ＯＣＲの認識率を上げるための方法について解説します。

ＯＣＲ業者は認識率をなるべく上げるためにこうしたことをやっています。

認識率が心配な方がいましたら、OCR業者さんに今からお伝えすることが出来ているか確認してみると良いと思います。

Ａ．紙の媒体をきれいにスキャンをすること

　　きれいにスキャンするとは、

　　　１．水平かつ垂直で傾き無しでスキャン

　　　２．文字擦れが無く黒色でスキャン

　　　３．背景が白色に近い色でスキャン

　　が条件となります。

ちなみにですが、ＯＣＲのソフトウェアは人の目から見やすければ、認識率は高くなります。

なぜなら、人間が開発しているからです。反対に、読みづらければ、認識率は低くなります。

Ｂ．スキャンした画像を補正すること

社内報や広報誌などのように、誌面のデザインによってはきれいにスキャン出来ないこともあります。

そのためスキャンした画像データを補正する必要があり、とても細かいですが大事なポイントです。

例えば、こんな補正を行います。

・スキャンした画像が傾いていれば、その角度を補正して水平垂直にする

・印刷文字が薄ければ、黒色がより黒くなるように画像を補正する

・「背景→黒、文字→白」の場合は色を反転させて「背景→白、文字→黒」にする

データ補正は工数が多いため、簡単な原稿であればきれいにスキャンをすることに力を入れてＯＣＲの認識率を上げるようにした方がお得です。

ちなみに、解像度は300dpiより600dpiの方がきれいなので良いと思いますが、大きな差は無いでしょう。

また、スキャンの際のカラーモードのおすすめはグレースケールです。

白黒２値とグレースケールのどちらが良いかは原稿次第ですがグレースケールの方が人の目にとって見やすいからです。

要注意！ＯＣＲ処理と相性の良いものと悪いものがあります

結論から申し上げますと、

▼相性の良い媒体

・１９８０年以降の比較的最近の小説やビジネス書

・１９８０年以降の比較的最近の論文冊子（数式や記号なし）

単純なレイアウト（１段組み）で、誌面の劣化がなく、活字印刷の文字もしっかりと黒く映っていて、数式や記号などが無いからです。そのため、低予算で精度の高いテキストデータ化が可能です。

▼相性の悪い媒体

・広報誌

・社内報

・カタログ

・名簿

複雑なレイアウトで、白抜き文字や図や写真・表が入ってくると、画像補正や詳細なレイアウト設定が必要で、高予算となります。

もちろん、相性の悪い媒体を低予算でＯＣＲ処理する選択もあります。

しかしながら、予想以上に精度の悪い結果となることも多く、過度な期待は禁物です。

ＯＣＲ処理の認識精度の良し悪しは、媒体の特性や状態に影響を受けてしまうこと。

だからこそＯＣＲ処理にあたっては、処理したい紙資料の特性をしっかりと把握し、認識結果を予想したうえで予算内でどこまでの精度で許容するのかを決めていく必要があります。

※雲紙舎のスキャン＆OCRサービスは、このような細かいご提案・サポートをしておりますので、ぜひご検討下さい。

安いし早いだけじゃない！ＯＣＲを利用するメリット

ＯＣＲ処理ってデータ入力より安いし早いと思われがちですが、「実はそう単純ではないんだな」と思っていただけたら本記事を執筆した甲斐があります。

そして、ここで更に知っておいて頂きたいのが、安いし早いだけがOCRのメリットではないということです。

これを知っておけば、二次利用の幅が広がると思いますのでぜひご覧ください。

１．データ入力より高精度・低価格・短納期でテキスト化できること

言わずとしれたOCRのメリットですね。

OCRと相性の良い媒体である場合、データ入力より高精度で、低価格・短納期でテキストデータ化が可能です。

電子書籍化を検討しているけど、紙の冊子しかないというお客様にとっては、データ入力よりＯＣＲ処理がおすすめです。

２．テキスト化によって、検索やコピー＆ペーストが可能になること

ＯＣＲ処理によって、検索や文字のコピー＆ペーストが可能になります。

これを目的としてOCRを検討されている方も多いのではないでしょうか。

その場合、OCRの精度がポイントになります。

OCR認識率の精度が高ければ、検索でヒットする単語が増えますし、逆の場合はヒットする単語が減ります。

認識率が高ければ、コピー＆ペーストした結果も誤認識の少ない綺麗な結果となるでしょう。

３．誌面の編集や再レイアウトが可能になること

マニュアルやガイドブック、規定集など、定期的に改定が必要な冊子の場合、ＯＣＲ処理によって、随時改定や、誌面の編集、レイアウトの変更などが可能になります。

ＯＣＲ処理の段階では、テキストデータ化するのみで、誌面レイアウトなどは反映されません。

そのため、ワードやインデザイン、イラストレーターによって、誌面を組版（くみはん）していくことになります。

誌面の組版までを依頼するのか、しないのかといった線引きは、予算や自社のリソースを見て判断していくことになるでしょう。

４．ワードファイルやテキストファイル、エクセルファイルなどで管理することが可能になること

２でご説明のとおり、テキストデータとして、コピー＆ペーストが可能になるので、ワードファイルやテキストファイル、エクセルファイル、インデザイン、イラストレーターなど、あらゆるアプリケーションソフトに貼り付けることが可能になります。

５．ＰＤＦファイルとして元の画像とテキストデータの両方を保持することが出来ること

検索用途して利用する場合、ＰＤＦファイルでの利用が大半です。

ＰＤＦファイルを開いて、検索すると該当の箇所が反転し、そのページを閲覧することができます。

このとき、ＰＤＦでは元の画像を表示しながら、その画像の上に、テキストデータが透明化されて配置されている状態です。

その透明化されたテキストデータを検索していることになります。

もちろん、透明化されたテキストデータをコピー＆ペーストして、ワードやエクセルなどに貼り付けることも可能です。

貼り付けた際は、透明文字ではなく、黒文字として貼り付けられます。

残念ながらＯＣＲを利用するデメリットもあります

１．データ入力より高コストになる場合があること

この記事の読者の方は、OCR処理だと安くなるというイメージをお持ちではないでしょうか。

それは間違っていませんが、正確でもありません。

媒体によっては、データ入力より高くなってしまうことがあるので要注意です。

そもそも、OCR処理はなぜ安いのでしょうか。

それは、ソフトウェアが自動的に文字を認識してくれるからです。

データ入力は、人がキーボードで手打ちをしていきますので、その分の工数がかかります。

OCRと相性の悪い媒体（カタログや名簿、広報誌、社内報）では、各誌面のレイアウト解析がうまく出来ず、文字認識の精度が落ちてしまいます。

そのため、レイアウト解析は自動認識させず、人手によって工数をかけてレイアウト解析し、認識率を上げていくことがあります。

この工数のかけ具合によっては、データ入力より高コストになる場合が出てくるのです。

２．ＯＣＲの精度（認識率）が期待値より低い場合があること

OCR処理は、レイアウト解析から認識まですべてソフトの自動認識に委ねた場合、ある一定の割合で、OCR処理がうまくかからないことが出てきます。

誌面の状態が良いのに認識率の低いこともあり、原因を特定することは困難です。

すべてを自動認識するOCR処理の場合は、たとえOCRと相性の良い媒体であっても、過度な期待をしないで、認識がうまくいかないこともあると知っていていただきたいと思います。

OCRソフトの選び方を解説します

ここまで、OCRの仕組み、相性の良い媒体・悪い媒体、メリットやデメリットについて解説をしてきました。

こういったOCRの特性に対応するために、OCRソフトもいくつかのタイプに分かれています。

１．レイアウト解析から文字認識までをすべて自動化するタイプ

２．レイアウト解析については人手をかけて設定し、文字認識を自動化するタイプ

３．２に加えて、人手をかけて認識された文字を校正するタイプ

上記の３つのタイプは、１．が最も低コストで３．が最も費用がかかります。

１つのタイプだけのOCRソフトもあれば、２つ、もしくは３つのタイプを兼ね備えたOCRソフトもあります。

検索用途であれば、１のタイプで十分でしょう。

広報誌や社内報、ちょっと精度の高いテキストデータが必要な際は、２と３のタイプとなります。

それでは、代表的なOCRソフトをご紹介しましょう。

Adobe Acrobat Pro DC

１のタイプの代表ソフトです。以下はパッケージソフトの購入先となりますが、Adobe CC（サブスクリプション版）でも利用可能です。

１のタイプのOCR処理と言えば、Adobe Acrobat（有償版）と言い切っていいぐらい有名なソフトです。

※ちなみに、皆さんが普段PDFと呼称しているアプリケーションは、Adobe Acrobat reader（無償版）です。

パソコンを購入した時からすでにインストールされていますよね！

この有償版が、Adobe Acrobat Proのことなんですね。

この有償版は、OCR処理をはじめ、削除や結合、置き換えなどいろいろな編集作業が可能であり、スキャン業者である私達にとっては欠かせないアプリケーションとなっています。

Adobe Acrobatの有償版のOCRの特徴は、

１．複数のファイルをまとめて一気にOCR処理することが可能である

２．多言語に対応（OCR時に言語の選択が可能）

３．傾斜補正の機能が付いている

４．一部の認識されない語句の編集機能も付いている

という特徴があります。

その中で、特筆すべき点は、３の傾斜補正機能です。

この傾斜補正機能とは何かと言いますと、OCR処理をかける際に、画像の中の文章が水平垂直になっているかをチェックし、傾斜している場合はその角度を直せる機能です。

OCRは、文章が傾いていると認識精度が落ちてしまうので、こういった傾斜機能が付いているのは大変ありがたいです。

当然、OCR時にこの傾斜補正機能をオフにすることも可能なので、用途に応じて使い分けていくのが良いでしょう。

ScanSnap Organizaer

１のタイプでもう一つおすすめソフトがこちらです。

ScanSnapを購入すると付いてくる無償のソフトウェアです。

ですから、以下には、ScanSnapのリンクを貼ってあります。

ScanSnapは、市販で大変有名なスキャナー機です。

A4サイズまでであれば、簡単にスキャニングが出来ます。

事務所に複合機を保有している企業の方にとっては、複合機でスキャンするより、こちらのScanSnapでスキャンする方が簡単で綺麗にそして早くスキャンが可能かと思います。

細かい設定もなく、初心者にも使いやすい設計になっています。

ScanSnap Organizer は、ScanSnapでスキャンしたPDFのみを対象に、OCR処理ができるOCRソフトです。

Adobe Acrobat Proと比較して機能が充実している訳ではありません。

傾斜補正の機能はありません。

ScanSnapでスキャンしたPDFのみが対象と、使い勝手もよくありません。

ただし、初心者の方に大変使いやすいソフトウェアです。

事務所の業務資料をスキャンして検索用途に手っ取り早くOCR処理をしたい方にとっては、ScanSnapのスキャナーを購入するという選択は、十分に有りだと思います。

かなりおススメです。

次は、２および３のタイプの代表的なOCRソフトのご紹介です。

e.Typist v.15.0

２および３のタイプの代表的なOCRソフトです。

紙の本から電子書籍を制作したい方にとっては、大変使い勝手の良い機能が満載のOCRソフトです。

e.Typist v.15.0　は、メディアドライブ社から販売されているOCRソフトです。

紙の本から電子書籍を制作したい方にとっては、精度の高いテキストデータを制作する観点から、以下の点でおススメします。

１．OCRソフト上で、突き合わせ校正が可能である

２．文字種ごとに色を付けることが可能である

紙から電子書籍用のテキストデータを制作するにあたっては、とにかく精度の高さが大切です。

精度は、99.98%以上（5,000文字に1文字の誤字）を確保するには、しっかりと突き合わせ校正をおこなう必要が出てきます。

e-Typistは、単純なレイアウトの書籍の突き合わせ校正をおこないやすいユーザーインターフェースになっています。

左に画像、右に認識されたテキストを配置し、左右の各スクロールを動かすと左右が同時に動くため、工数少なく簡単に校正が可能です。

また、キーボードでの文字修正以外にも、右クリックで候補文字を表示させた上で、各候補文字を左クリックするだけで文字修正が出来たり、表示縮尺も、左右を同時に変更させられたりと、至れり尽くせりの機能が充実しています。

小説などの電子書籍化には、e.Typist v.15.0 は鉄板のOCRソフトと言えるでしょう。

読取革命Ver.15

２および３のタイプの代表的なOCRソフトです。

画像の補正機能が優れていて、広報誌や社内報などの複雑な誌面のOCR処理におススメです。

読取革命は、パナソニック製のOCRソフトです。

なぜかAmazonではe-typistより評価が高いようですが、1段～3段組の小説や論文といったもののOCR処理については、e-typistの方が使い勝手が良いですね。

ただし、広報誌や社内報など、白抜き文字や、背景べた塗りの記事などが出てくる誌面には、読取革命が圧倒的に優れていると言えます。

読取革命の特徴は、画像の補正機能が優れている点です。

白抜き文字のところの色を反転させたり、色が薄い誌面の色を濃くしたりすることが出来るため、OCRの認識精度を大幅にアップさせられるのです。

もちろん、e-tyistにもこの機能は付いていますが、画像補正の質を比較すると、読取革命に軍配が上がってしまいます。

以上、４つのOCRソフトをご紹介しました。

他にもたくさん市販のOCRソフトがあります。海外製のOCRソフトもあります。

しかしながら、今回ご紹介した４つのOCRソフトは、本当に代表的と言える存在で、これら以外のOCRソフトをご紹介する必要もないと言えるくらいです。

また、弊社でも、この４つのOCRソフト以外は使用したこともないため、ご紹介記事が書けません。

弊社のようなOCR処理のプロでも、使ったことがない、知らないOCRソフトがたくさんありますので、OCRソフトを探している方にとっては、今回ご紹介した４つのOCRソフトから、もっとも用途に合致しそうなものを手に取ってみてはいかがでしょうか。

AI OCRについてプロからみた考察

2015年ごろから AI OCRという言葉がビジネスニュースでよく耳にするようになりました。ディープラーニングや人工知能といった言葉を一度は聞いたことがありますよね。

AI OCRは、ディープラーニングの機能を土台に、マッチする文字を選び出すアプリケーションです。ディープラーニングには、大量の学習データが必要となります。

そのため必然的にAI OCRを使うべき場面というのは、帳票関係のテキストデータ化の場面となります。

また、AI OCRのベンダーさんの話を聞くと、縦書き文章にはまだうまく対応が出来ていないようです。学習データの準備からとなるため、コストもデータ入力より高くなってしまうケースが多いようです。

以上のようにAI OCRの特徴を知ると、冊子や資料のOCR処理は、市販のOCRソフトで十分です。

OCR処理でよくあるご質問をまとめました

OCR処理を徹底的に解説してきましたが、いかがでしたでしょうか。

以下、雲紙舎によく問い合わせでいただく内容をQ＆A形式で記載しますので、ご参考にしてみてください。

Q1.名簿や住所録をOCRしていただけませんか？

名簿や住所録は、OCR処理よりデータ入力の方がお安くなることが多いです。

OCR処理はすべてOCRソフトが自動で処理してくれるものと思われがちですが、表などは人手をかけて細かく領域枠の設定をした上で、レイアウト解析をしなければいけません。

OCR処理後は、突き合わせ校正が必須です。

数字と記号が入ってきますので、誤認識も多いでしょう。

そして、Excelへの出力も綺麗に出力されることは稀で、体裁を整える必要もあります。

こういった工数が、データ入力以上かかる場合が多いのです。

Q2.アンケートや問題集をOCRし、近いレイアウトでワード組版していただけませんか？

ご対応可能です。ただし、かなり高額となります。

テキストベタ打ちの方が圧倒的にお安くなります。

ワード組版は、1ページ最低でも30分から1時間はかかってしまうからです。

利用目的が、印刷ではなく、再編集したいというものであれば、テキストベタ打ちでの納品が一番コストパフォーマンスは良いでしょう。

ワード組版以外では、イラストレーターやインデザインの方がお安くできる場合もあります。

Q3.表資料をデータ化し、Excelで納品していただけませんか？

ご対応可能です。表資料は、データ入力よりは、OCR処理の方がお安くなる可能性が高いです。

特に、頁ごとに、表資料の項目などが変わってしまう場合、中国やベトナムのデータ入力会社では期待される品質で納品されることがなく、日本でもう一度校正が必要となってしまうのです。

そうであれば、日本人スタッフがOCR処理をし、Excelに出力した方が、結果的にお安くなる場合が多いでしょう。

Q4.1回突き合わせ校正と2回突き合わせ校正のどちらを選んだら良いでしょうか？

誌面の状態が良く、綺麗にスキャンされた小説であれば、1回突き合わせ校正で十分です。

雲紙舎では、出版印刷会社から、書籍のテキストデータ制作の依頼を多く受けていますが、そのほとんどが、1回突き合わせ校正です。

2回突き合わせ校正をおススメするのは、誌面の状態が悪かったり、レイアウトが複雑な場合や、和文英数字記号が混在している場合などです。

OCRの認識精度が落ちてしまうため、1回突き合わせ校正では、少し精度が良くありません。

まとめ｜雲紙舎のOCRサービスもご検討下さい。

以上、いかがでしたでしょうか。

認識精度の過度な期待や誤解を招きやすいOCR処理。

この記事では、それを解決するために、OCR処理の徹底解説を試みました。

ただ、OCRの仕組みを説明するのではなく、皆さんの業務にとって、どう有益なのかという視点から、余すところなく徹底解説できたかと思っています。

雲紙舎のOCR・スキャンサービスにてお見積もりや御相談を承っております。

最低発注金額5万円～、ISO27001、ISO9001を取得済みで、文書情報管理士上級スタッフが在中し、高い品質レベルのOCR・スキャニングサービスを提供しています。

コラム一覧に戻る