文字認識(OCR)技術でこんなこともできる！ユニークな活用事例を紹介

最終更新日:2024/04/04

文字認識技術でこんなこともできる！ユニークな活用事例をご紹介｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

昨今、官公庁や地方自治体、大学、金融機関など事務作業が多いオフィスを中心に、光学認識技術（OCR）による文字認識ソフトウェアが導入されています。これまで紙ベースで扱ってきた書類をOCRによって自動的にデータ変換することで、より扱いやすくすることが可能です。ここではさらに、オフィスワークに留まらないユニークな文字認識技術の活用事例についてまとめました。

文字認識(OCR)技術で古文書の「くずし字」を判別した活用事例

従来のOCR技術では、あらかじめ文書の項目位置を指定して読み込まなくてはならなかったので、項目の位置がばらばらな非定型文書や、手書き文字のようなクセの強いデータの読み取りは困難でした。しかし、AI・人工知能を活用したOCRが登場したことで、こうした文書の読み取りも可能になっています。

また、AI-OCRによる文字認識技術を学術分野に転用する取り組みのひとつが、古文書に書かれた「くずし字」を判別するソフトウェアの開発です。

博物館などで目にする古い巻物や書状は、「日本語で書かれているはずなのに達筆すぎて読めない」という経験をしたことがある方も多いでしょう。

人文学オープンデータ共同利用センター（CODH）と国立情報学研究所、カナダ・モントリオールのAI研究機関であるMontreal Institute for Learning Algorithmsは共同で、ディープラーニング（深層学習）によるOCRシステムを活用し、こうしたくずし字で書かれた古典のデータ化に取り組んでいます。

また、立命館大学でも凸版印刷と協力し、AIによるくずし字の解読支援・指導システムを開発しました。同システムでは、文書上の読めない文字を選択するとAIの支援を受けながらくずし字を判別し、翻訳作業を行うことができます。立命館大に保管されている資料の原本や複製画像を使用し、江戸時代を中心に、室町時代から明治時代初期まで約15万7,000件の書物と浮世絵の文字を解読できるそうです。

くずし字のことを「ミミズが這ったような文字」と言う人もいます。しかし、古い時代の天皇や貴族、お坊さんなど高い教養を持つ人が書いた文書は当時の書道に則って書かれているため、実は一定の崩し方の法則を知っていれば、解読は可能なのです。ただ、現代ではそうした知識が失われてしまったため、くずし字の解読ができる人は日本人の0.1％未満にとどまっています。文字の解読ができないために文化的資料の活用が十分されていない現状を打破するべく、AIによる支援が期待されています。

（参照：IT mediaエンタープライズ　AIとOCRで、古典資料に書かれた「くずし字」を判読可能に――研究者たちの挑戦）

（参照：ニュースイッチ　日本の古い書物の「崩し字」AIが解読支援）

日経新聞の活用事例：約100年前の新聞をOCRでテキストデータ化

日経新聞の活用事例：約100年前の新聞をOCRでテキストデータ化｜人工知能を搭載した製品・サービスの比較一覧・導入活用事例・資料請求が無料でできるAIポータルメディア

画像は2015年度発行の日経新聞

日経新聞が文字認識技術を用いて取り組んでいるのは、古い新聞のアーカイブ化です。約140年前の1876年に創刊された「中外物価新報」（日経新聞の前身）など、約100年間の新聞をデータ化しています。

日経新聞ではすでに1970年代から40年分の新聞についてはデータ化していますが、古い新聞については紙面をスキャンしたイメージデータのみで保管していました。これを文字認識技術によってテキストデータ化し、記事ごとにタグ情報を付記します。検索性を高めることで、過去の日本経済の状況や当時の物価などを調べるのに役立てることができるわけです。

ただ、当時の新聞は紙が薄く、裏ページの文字が透けて見える「裏映り」があったり、現代のように印刷も鮮明ではなかったりします。そのため読み取りが難しく、当初AIを活用したOCRによる読み取り精度は75％程度にとどまっていました。しかし、現在は改良を重ねたことで95％程度まで向上しており、人手による修正の手間を大幅に省けるようになったそうです。