スキャンサービスのことならスキャニング代行の雲紙舎
お見積り・ご相談
電話番号03-5829-4150
(平日10〜18時)

OCRとは? 導入のメリットと文字認識率を上げるスキャン方法

「あなたはOCRという言葉を聞いたことはありますか?」

「書類や画像を読み取ることができるツール?なんとなくわかるけど具体的には……。」

 

一昔前から郵便番号や銀行の振込用紙の読み取りなど、実は日常の至るところで活用されている「OCR」。最近はLineの機能でも使えるようになりました。

 

「働き方改革」「電子化」「ペーパーレス」が求められるいま、業務効率化ツールとして再び注目を集めている「OCR」とはいったい何なのでしょうか。

 

この記事では、OCRがどのようなものであるのかについて解説し、導入のメリットとOCRの文字認識精度を上げるテクニックについても紹介します。

 


執筆者:長屋 好則
株式会社 雲紙舎 代表

2009年よりOCR・スキャン専門サービスを立ち上げ、2013年より法人雲紙舎の代表を務めている。過去2000件のスキャン実績があり、契約書・業務資料から図面・冊子まであらゆる資料の電子化、二次活用をサポートしています。

OCRの導入を検討している方へ。A1サイズからA4サイズの大量スキャンに対応可能!
お見積り・ご相談はこちら>

 

OCRとは?

かつては実用化には程遠かったOCRですが、最近は目覚ましい進化遂げ、多くの企業で導入が進んでいます。ここでは、OCRとは何か、文字認識の仕組みについて解説します。

 

|OCR(光学的文字認識)はどのような技術?

手書きの文字や書類画像を一瞬でテキストデータへと変換・保存し、欲しい情報の検索が簡単にできたらどれほどの時間短縮を図ることができるでしょうか。

これまで以上に業務がグンと楽になるはずです。

 

OCRは画像データの文字部分を読み取って、電子テキストに変換する技術です。

一昔前は、画像データの認識精度が不十分で実用化が進んでいませんでしたが、最近では技術革新が進み超高精度で認識できるようになりビジネスに活用できる幅が広がっています。

 

ビジネス文章のデータ手入力(文字越し)は非常に時間のかかる作業ですし、入力ミスの発生リスクを高め、ダブルチェックの手間を増やしていました。

また、書類を画像として保存したものの、確認したい箇所を探すのに多くの時間を要していました。

 

OCRは、データ入力の効率化はもちろん、テキストデータへ変換し書類管理の自動化が図れます。つまり、業務が劇的に効率化されるのです。

 

|文字を認識するまでの4つのステップ

 

では、どのようにしてOCRでは文字を認識しているのでしょうか。

印刷された文字をテキスト化できるOCRでは文字を認識するまでに4つステップがあります。

 

ステップ1:レイアウト解析

OCRでは読み取りたい文字画像をスキャンして文字認識を行うわけですが、取り込む画像は、単に文字だけが並んでいるわけではありません。

表や図、段組みなどがあり、文章の中から文字領域のみを分離する必要があります。

 

「どこに何があるのか」文章の中から文字の「かたまり」を見つけ出して、読む順番を決める処理をレイアウト解析といいます。

 

ステップ2:行の切り出し

レイアウト解析によって、抽出された文字の「かたまり」を1行ずつ分解します。この処理を行の切り出しといいます。

 

ステップ3:文字の切り出し

切り出した1行から一文字ずつ切り出す処理を文字の切り出しといいます。

 

ステップ4:文字認識(正規化、特徴抽出、マッチング、知識処理)

切り出した文字は、かすれていたり、斜めであったり、認識しづらい要素がたくさんあります。そのため、何の文字なのかを比較、認識する処理が必要です。

まずは、次の処理を容易するために文字の大きさ等(表記)を一定にそろえる正規化という処理を行います。

 

そして、文字に使われる線の向きや数、傾きなど文字の特徴を抽出する特徴抽出という処理を行います。

 

次に、あらかじめ登録済みの文字と抽出した文字の特徴をマッチングさせ候補となる文字を特定するマッチング処理を行い、最後に前後の文字列と日本語の単語情報を照合する知識処理を行って文字を特定します。

 

明瞭な見積もりでスキャンサービスを選びたい方へ。A0~A2サイズ、観音製本・上製本、青焼き図面に対応!
お見積り・ご相談はこちら>

 

OCR導入のメリット

 

OCRを導入することによってどのようなメリットがあるのでしょうか。ここでは、OCR導入のおもなメリットについて解説します。

 

|データ入力の手間を削減

「伝票」や「帳票」データの手入力は時間がかかるうえに誤入力や見落としなどのミスも発生しやすく手間がかかる作業です。

データ入力は誤入力や見落としリスクの高い単純作業であり、かける時間に対して生産性は高くありません。

 

OCRはスキャナーで読み取るだけで同時に書類形式として文書が保存でき、データ入力の手間が半減します。

 

|データの検索が可能になる

生産性が全くない「探す」という行為に多くの時間を費やしてはいませんか?

紙媒体や画像として保存している場合、いざ必要になったときにすぐに見つからないと生産性のない無駄な時間を過ごしてしまうことになります。

 

OCRでは、情報をテキスト化することによって、検索機能を使い、手軽に欲しい情報を素早く検索できます。

 

|紙の書類の修正が容易になる

紙ベースの書類を修正するとなると、表やグラフ、段落のずれ、配置調整など時間のかかる作業が発生します。

OCRの技術を活用すれば、必要な個所をピンポイントで自動修正が可能となり非効率な作業は一気に効率化されます。

 

|ペーパーレス化

OCRを活用すれば、書類をペーパーレスで管理することができます。膨大な書類を複数人で管理する手間が必要なくなり、余計な人員を書類管理に割く必要がなくなります。

コア業務に人員を割くことによって生産性の高い事業運営が可能になります。

 

|省スペース

膨大な書類をテキストデータ化することによって、物理的な保管スペースが必要なくなるのは容易に想像できることではないでしょうか。

書類が積まれているスペースは業務環境を圧迫するだけでなく心理的圧迫感やストレス、トラブルの種になります。

 

OCRを活用すれば書類の保管スペースが不要となるため、場所の有効活用にもつながります。また、気持ちに余裕ができ仕事に集中できる環境をつくることができます。

 

紙の書類管理でお困りの方へ。大量スキャン、都内への出張スキャンに対応可能!
お見積り・ご相談はこちら>

 

 

文字認識率を上げるスキャン方法は?

 

以前に比べOCRの認識精度は格段に向上しましたが、理論上100%になることはありえません。OCRソフトには得意・不得意がありますし以下のようなことで誤認識が発生しやすいと言われています。

  • 原稿が斜め
  • 文字間隔が狭い
  • 特殊文字
  • カラー文字や文字の擦れ
  • 横書きと縦書きの混在
  • 網掛けされている文字

 

そこで、誤認識発生率をある程度下げる方法として、以下のようなちょっとしたテクニックがあります。

  • 300dpi~600dpiの高い解像度でスキャンする
  • 白黒でスキャンする
  • コントラスト(色の差)を強調する
  • 書類の向きをそろえる

 

誤認識発生率を下げる方法でスキャンしても目視で1文字1文字検品と修正作業をする必要があります。つまり、文字認識率を高めるためには、最終的に手作業で時間と人数をかけることとなります。

 

詳細は、こちらのコラムで解説していますので、お時間のある方はお目通しください。

OCR処理はこんな時に大変便利~この道10年の雲紙舎が解説

まとめ|会社の貴重な資産を次世代に残すためには

働き方改革で業務効率化の強い味方として注目を集める「OCR」。

最近では、OCRの技術がスマートフォンにも搭載され、アプリとしても提供されています。非常に使い勝手が良く利便性が向上しました。

 

ただ、OCRの精度にはばらつきがあり必ずしも完璧なツールではありません。

そのためまだまだ人的チェックが必要であり、上手にOCRと人的作業を組み合わせて効率的に管理することが重要です。

 

貴重な会社の資産である資料を次世代に残していくためには、単なるOCRソフトやアプリの活用だけで安心してはいけません。適切に管理するための体制作りが大切です。

 

「雲紙舎」では、紙文書の電子化サービスを行っており、文書情報管理士資格の上級から1級スタッフを揃え、難易度の高いスキャン業務にも難なく対応できる専門性を持っています。

紙文書を電子化したいとお考えの方や、OCR導入を検討している方がいましたら、下記ご確認の上、ぜひ一度ご連絡下さい。

PAGE TOP
今すぐお見積り