重要書類・契約書・大判図面・社内報などの
高品質データスキャンなら雲紙舎へ
第2弾 難度の高い社内報OCR処理への取り組みを校正スタッフが語る!
第2弾 難度の高い社内報OCR処理への取り組みを校正スタッフが語る!

「雲紙舎」で働く前は、どんな仕事をしていましたか?

ライターや編集の仕事をしていました。もともとはフリーランスでしたが、後に編集プロダクションを仲間たちと立ち上げて、雑誌や単行本を作ったりしていました。 編集・ライタ一時代に手掛けたものは多岐に渡りますが、なかでも企業系のものや、商業誌・広報誌の経験は、現在の「社内報のOCR」という仕事にも役立っていると感じています。

「社内報のOCR」とは何ですか?

社内報のOCRの説明の前に、まず社内報とは何かについてご説明します。社内報とは各企業さまで発行されている社内についての情報誌のことです。創業時から何十年も続いているもので会社の歴史や社員の方々のお仕事ぶり、社長が交代したタイミングで会社の方針が変わったり、社長から年頭の挨拶があったりと、会社とそこで働く方々皆さまの思いや大切な情報が含まれているものです。もちろん社外秘の扱いでもあります。 社内報は、これまで冊子など「紙の状態」であったものがほとんどでしたが、これから先ずっと情報を保存、記録していくにあたって、「紙の状態」では紙が劣化し、やがて見ることができなくなってしまいます。そのため、近年では社内報を永続的に保存し、社内の誰もが検索して容易に過去の社内報を閲覧することができるようにスキャニング(読み取る)するということに力を注ぐようになってきています。 社内報のOCRとは、上記のようにスキャンした社内報に対して、OCR処理をすることを意味します。OCRとは、紙の状態にあるものを、スキャナーで画像として読み取りPDF ファイルなどの画像ファイルにした後に、検索が出来るように画像ファイルから文字情報をテキスト化することです。テキスト化した後は、テキストファイルやワードファイルで出力したり、元のPDFファイルの上に透明化した文字として載せたりします。

「社内報のOCR」の校正は、実際にはどのような仕事なのでしょう?

写真:アーキビスト
私は、弊社でスキャンした社内報のPDFファイルにOCR処理をおこない、そのOCRのテキストデータが正確にテキスト化されているか、OCR特有の誤変換や誤字がないかを原稿と突き合わせて校正する仕事をしています。 企業さまからご依頼いただく社内報は、体裁は雑誌のように綴じられた冊子の形がほとんどです。それをスキャナーで撮ったものをOCRソフトでOCR処理します。 このOCR処理では、誤変換などがかならず生じてきます。私の仕事は、この誤変換を目視で確認し修正していく作業なのです。OCRソフトがよく誤認識するものとしては、カタカナの大きい「ヨ」と小さい「ョ」、漢字の「力(ちから)」とカタカナの「カ」、「一ヵ月」の「ヵ」などがあります。まだまだOCRソフトでは苦手なところがあり、最後は人間の目で確認する必要があるのです。

どのようなソフト使ってOCR校正をしていますか?

私どもでは主に2種類のソフトを使用しています。仮にソフトA・ソフトBとします。Aは、カラーの雑誌形式のものに使用していまして、Bは小説などの長文を校正するのに適しています。 先ほどお話しした、パソコンでは読み取りが難しい文字であるカタカナの大きな「ヨ」と小さな「ョ」など、ソフトAでは「全角」、「半角」など説明が入っているので大変わかりやすいです。また、雑誌のような体裁の場合、カラーのページが多いですが、地色がカラーで白抜きで文字があったりしても、ソフトAだと色を逆転させて読み取ることが可能なので、工夫して使用しています。 ソフトBは、例えば「‐(ハイフン)」などの記号も、OCRソフトでは認識しづらいのですが、指定をしておくと、色分けして出てくるので、分かりやすいです。また、取り出したい文字は、領域枠を作って囲って、OCRソフトに読み取らせるという作業をするのですが、領域枠を多数作成する場合は、作成した領域枠の順番に最善の注意を払わないと、テキスト化したときに文字の順番が想定した順番とは変わってしまうことがあります。こうなってしまうととても厄介で、その都度対処していかなくてはなりません。 すべての仕事がケースバイケースですので、精度の高いベストなものをお客さまに提供できるよう、2種類のOCRソフトを臨機応変に使い分けて丁寧に作業しています。

「社内報のOCR」でよく起きる問題は何ですか?解決法は?

私たちの仕事は、基本的には「元原稿」に忠実な校正です。けれども、どうしてもOCR処理の過程で元原稿と同じ文字を読み取れない事態が起きてしまいます。 社内報と言っても、歴史ある企業の創業時のものなどですと、紙自体が黄ばみ、傷んでいるものもあります。一見するときちんと読めるものでも、いざOCRにかけると読み取らない文字というものが出てきてしまいます。その際はいろいろ工夫をして、いったん枠を外してもう一度枠を作り直したり、広げたり、サイズの大小を変えてみたり、画像を反転させたりなど、あらゆる角度からアプローチして、問題を解決していきます。 旧字など、現在使用しているもので出せないものは、別のOCRのソフトを使うこともあります。 どう対処したらよいかは、一定のパターンはありますが、ケースバイケースですので、試行錯誤を重ねながら、仕上げています。

「社内報OCR」をしていて、どんな時にやりがいを感じますか?

各企業さまの社内報というのは、その会社の歴史や創業理念、過去から現在までの皆さまの思いや努力、成果というものの結晶であり、歴史ですよね。次代のさらなる発展のために、後世に遺していきたい、という会社のお気持ちを、まずは大切にしていきたいと思っています。 この仕事は機械に通せばよい、というものではなく、その都度、人が考え、工夫してチャレンジして、という丁寧な作業が求められます。スピードを重視してはいますが、なにより美しく、クオリティの高いものを目指しています。課題や問題が山積みでも、ひとつずつ解決し最後に完成形を見ると、かつて書籍や雑誌を作っていたような達成感があります。そして仕上がった時に、お客さまが「きれいに仕上がっている!」と喜んでくださったときが、やはり一番やりがいを感じます。 これからも「雲紙舎に任せてよかった!」と満足していただけるような仕事を重ねていきたいと思っています。
写真:アーキビスト
アーキビストインタビュー一覧に戻る
スキャンのことなら雲紙舎に!
お気軽にお問合せください。
お電話でのお問い合わせは
0120-119−054 受付時間:平日10〜18時
Webからのお問い合わせは
お問い合わせフォーム
24時間受付
PAGE TOP
今すぐお見積り