生成AI

最終更新日:2024/04/04
昨今、官公庁や地方自治体、大学、金融機関など事務作業が多いオフィスを中心に、光学認識技術(OCR)による文字認識ソフトウェアが導入されています。これまで紙ベースで扱ってきた書類をOCRによって自動的にデータ変換することで、より扱いやすくすることが可能です。ここではさらに、オフィスワークに留まらないユニークな文字認識技術の活用事例についてまとめました。
従来のOCR技術では、あらかじめ文書の項目位置を指定して読み込まなくてはならなかったので、項目の位置がばらばらな非定型文書や、手書き文字のようなクセの強いデータの読み取りは困難でした。しかし、AI・人工知能を活用したOCRが登場したことで、こうした文書の読み取りも可能になっています。
また、AI-OCRによる文字認識技術を学術分野に転用する取り組みのひとつが、古文書に書かれた「くずし字」を判別するソフトウェアの開発です。
博物館などで目にする古い巻物や書状は、「日本語で書かれているはずなのに達筆すぎて読めない」という経験をしたことがある方も多いでしょう。
人文学オープンデータ共同利用センター(CODH)と国立情報学研究所、カナダ・モントリオールのAI研究機関であるMontreal Institute for Learning Algorithmsは共同で、ディープラーニング(深層学習)によるOCRシステムを活用し、こうしたくずし字で書かれた古典のデータ化に取り組んでいます。
また、立命館大学でも凸版印刷と協力し、AIによるくずし字の解読支援・指導システムを開発しました。同システムでは、文書上の読めない文字を選択するとAIの支援を受けながらくずし字を判別し、翻訳作業を行うことができます。立命館大に保管されている資料の原本や複製画像を使用し、江戸時代を中心に、室町時代から明治時代初期まで約15万7,000件の書物と浮世絵の文字を解読できるそうです。
くずし字のことを「ミミズが這ったような文字」と言う人もいます。しかし、古い時代の天皇や貴族、お坊さんなど高い教養を持つ人が書いた文書は当時の書道に則って書かれているため、実は一定の崩し方の法則を知っていれば、解読は可能なのです。ただ、現代ではそうした知識が失われてしまったため、くずし字の解読ができる人は日本人の0.1%未満にとどまっています。文字の解読ができないために文化的資料の活用が十分されていない現状を打破するべく、AIによる支援が期待されています。
画像は2015年度発行の日経新聞
日経新聞が文字認識技術を用いて取り組んでいるのは、古い新聞のアーカイブ化です。約140年前の1876年に創刊された「中外物価新報」(日経新聞の前身)など、約100年間の新聞をデータ化しています。
日経新聞ではすでに1970年代から40年分の新聞についてはデータ化していますが、古い新聞については紙面をスキャンしたイメージデータのみで保管していました。これを文字認識技術によってテキストデータ化し、記事ごとにタグ情報を付記します。検索性を高めることで、過去の日本経済の状況や当時の物価などを調べるのに役立てることができるわけです。
ただ、当時の新聞は紙が薄く、裏ページの文字が透けて見える「裏映り」があったり、現代のように印刷も鮮明ではなかったりします。そのため読み取りが難しく、当初AIを活用したOCRによる読み取り精度は75%程度にとどまっていました。しかし、現在は改良を重ねたことで95%程度まで向上しており、人手による修正の手間を大幅に省けるようになったそうです。
日本には古い書物や文書など、歴史的な価値があるものの紙媒体で保存されているために活用不十分な文化的資料が数多く残されています。こうした資料の価値を再認識し、未来に役立てていくために、AIを活用した文字認識技術が導入され始めています。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら