DXを推進するAIポータルメディア「AIsmiley」| AI製品・サービスの比較・検索サイト
お急ぎの方は、まずお電話で 03-6452-4750
MAIL
お急ぎの方は、まずお電話で 03-6452-4750 10:00〜18:00 年末年始除く

国立国会図書館が最新AI技術のOCR処理プログラムを活用

最終更新日:2022/05/19

OCR処理プログラム 国立国会図書館でOCRを活用

国立国会図書館から委託を受けた「OCR処理プログラムの研究開発」が完了したことを、モルフォAIソリューションズが発表しました。

このAIニュースのポイント

  • 国立国会図書館が最新AI技術のOCR処理プログラムを活用
  • 多様なレイアウト・文字種に対応しており、複雑な資料のテキスト化も可能
  • OCR処理プログラムの活用で、国会図書館の資料デジタル化が加速

株式会社モルフォAIソリューションズは、国立国会図書館からの「OCR処理プログラム研究開発」委託事業の完了を発表しました。

このOCR処理プログラムの開発により、国立国会図書館デジタルコレクション上で提供される資料画像において、本文テキストデータの作成を行えるようになりました。また、凸版印刷株式会社の協力により約1,300万文字のOCR学習用データセットを構築しています。

これにより、多様なレイアウト・文字種に対応できるようになり、既存のOCRサービスが対応できなかった明治期~昭和期までの複雑な資料のテキスト化が可能になりました。たとえば、戦前の旧かな文字を多用した文章でもスムーズなテキスト化ができます。

明治期~昭和期の書籍画像(2億枚)のテキスト化処理の研究開発

このほか、OCR処理プログラムの精度も向上しています。市販OCRでは、明治期~昭和初期の近代書籍・雑誌において、読み取り精度が約40%しかありませんでした。今回開発されたOCR処理プログラムでは、90%以上の読み取り精度を実現しています。

OCR処理プログラムの精度向上

学習用データを用意すれば追加学習も可能で、今後国立国会図書館がデジタル化する資料の全文テキストデータ作成に使用されます。プログラムのほかに、開発に用いた機械学習用データセット(著作権保護期間が満了したデジタル化資料から作成した分のみ)も近々に公開予定です。

このOCR処理プログラムの活用により、国立国会図書館に収蔵されている数々の貴重な資料がより幅広い分野で活用されることが期待されています。

出典:PR TIMES

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています
@AIsmiley.inc
・Twitterもフォローください
@AIsmiley_inc

今注目のカテゴリー

チャットボット

画像認識・画像解析

需要予測

OCR・文字認識

チャットボット

画像認識・画像解析

需要予測

OCR・文字認識

AI活用のご相談したい企業様はこちら

03-6452-4750

AI製品・ソリューションの掲載を
希望される企業様はこちら