社史の裁断しないスキャン・電子化、OCRテキスト文字修正処理プラン事例 O証券会社様

案件の概要

お客様名・業種 O証券会社様様
ご利用サービス内容  裁断をしないスキャン、OCRテキスト化文字修正有り
電子化の目的  今期に入社する新入社員に社史3冊のデータを配布したい。
入稿方法  O証券会社様にて直接原稿の受け取り。一度事務所にて顔合わせと、仕様の確認をおこないました。
納品方法  検収用データはファイル転送サービスを利用。検収終了後の納品データはDVD-Rにてお届けいたしました。
納品形式  PDFファイル。OCR処理されたテキスト文字も透明テキスト化されたPDFとして対応いたしました。

電子化のポイント

「今期入社する新入社員に社史を配布したいが、原本が残りわずかなため裁断しないでスキャンして欲しい」と、担当の方との打ち合わせで依頼がありました。一旦サンプルを作成し提出いたしましたところ、品質面でかなり高いものをお求めのため、電子化の工程を大幅に見直しています。裁断しないでスキャンする場合、本の小口がどうしても映ってしまいます。コンビニのコピー機で本をコピーする場合でも小口が映ってしまうのと同じ現象がスキャンでも生じるということです。また、フラッドヘッドスキャナーで1ページずつスキャンをする場合、どうしても傾きが生じてしまいますし、1ページ1ページの縦と横のサイズも微妙に異なってきます。また、文字自体も紙質と文字の太さの関係で見やすい場合や見にくい場合があります。これらの課題を解決しお客様に完璧なデータとして納品するという課題に応える必要がありました。

そのため、フラッドヘッドスキャナーの読取画像を固定化することはもちろんのこと、PDFとして作成してから、傾斜補正処理をおこなっています。これは、一度jpgに変換してから傾きをシステムで自動的に補正する処理で、微妙な傾きなども含めて綺麗に処理が可能です。その上で、文字の見易さを高めるために、明るさとコントラストを調整し、全ページをバッチ処理しています。最後の仕上げでは、各ページの縦と横の長さすべて同じにする処理をシステムでおこないました。PDFの作成は以上となります。

次に、OCR処理 テキスト文字修正処理です。特別なことはしておらず、市販のOCRソフトで、まず、読取領域の設定をおこないます。今回は、ノンブルと柱は除外し設定をさせて頂きました。その上で、担当スタッフが一字一句眼でチェックして誤字を手で修正するという地道な作業をおこないまして、データを完成させています。写真のキャプションはもちろん、表中や図中の文章も出来る限りOCR処理をさせて頂きました。社史を記念の資料としてデータ化するという意味では、このような丁寧なOCR処理も含めた作業はとても意味のあることだと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です