OCRテキスト化サービス 文字修正再チェック 事例 国立情報学研究所様

案件の概要

お客様名・業種 国立情報学研究所様
ご利用サービス内容  OCRテキスト化サービス 目視修正再チェック
電子化の目的  原本に忠実なテキストデータが業務上どうしても必要なため
入稿方法  書籍を送付していただき、裁断してスキャン。PDFを作成しています。
納品方法  DVD-Rにて納品
納品形式  原本に忠実であるために、テキストボックス付きのワードファイルをOCRソフトで作成しています。

OCR化のポイント

ラテン文字がかなり含まれている点が、今回のOCRテキスト化で最大の難所でした。ラテン文字と英数字は似ているところも多く、どうしても見落としが生じることが想定されましたし、また、普段使いなれないラテン文字を入力しなければいけません。通常はラテン文字にも対応したOCRソフトで、目視チェックし誤字なども修正していく方法が考えられますが、今回は、ラテン文字になれていないということで、最初の修正ではラテン文字以外の誤字を確実に修正し、その上で、すぐにワード形式にテキスト文字を出力いたしました。

その上で、原本を複製コピーし、ラテン文字と思われる箇所を複数の担当者が2度一字一句眼でチェックして蛍光ペンで塗りつぶし、すでにワードとして出力されてテキスト文章へラテン文字を1ページずつ反映させるという地味で大変な作業をおこなっています。どちらの方法が良いかは一概には言えませんが、複製コピーして蛍光ペンを引くほうが時間もコストもかかりますが、より丁寧なチェックが出来るのではないでしょうか。また、ワード上でラテン文字を置き換える際も、確実にパターンの分かりきった単語などは一括置換で処理もおこなえます。

正確なテキスト文字を誤字なく必要とされるお客様には、是非、一度試していただきたいコースです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です