生成AI

最終更新日:2025/09/29
JAPAN AIは、画像とテキストを統合的に理解する「マルチモーダルRAG」を実装しました。従来のテキスト抽出やOCRによる画像認識のみの処理から大幅に進化し、図面の寸法情報やグラフの数値データなどを正確に読み取ることが可能です。
このニュースのポイント
JAPAN AI株式会社は、製造業の技術資料の活用を効率化するために、画像とテキストを統合的に理解する「マルチモーダルRAG」を実装しました。
製造業を含む多くの企業では、技術者の退職や異動により、設計図面、作業手順書、品質管理データ、過去のトラブル対応事例などの膨大な技術資料が社内に存在するものの、長年蓄積されたノウハウや経験値が部門や個人ごとに分散管理され、必要な情報へのアクセスが困難でした。
また、JAPAN AIは、約300の質問に対する回答で業界最高水準の82.7%の精度を持つRAGを使用してテキスト情報の検索を援してきましたが、視覚的情報(図面、写真、グラフ)に対しては、従来のRAGでは活用範囲が限られており、情報取得が困難でした。これを解決するために、画像とテキストを統合的に理解する「マルチモーダルRAG」を実装しました。
マルチモーダル(Retrieval-Augmented Generation)は、画像・文書・音声など複数のデータ形式を検索し、その結果を基に生成AIが回答を出力する仕組みです。
従来のRAGでは、図面などの技術文書を検索して見つけることはできても、その図面に記載された具体的な数値や仕様を抽出して回答を生成することは困難でした。
今回の「マルチモーダルRAG」により、PDFファイル内のテキストと画像を自動判別し、両方の情報を統合的に理解して回答を生成できるようになりました。従来のテキスト抽出やOCRによる画像認識から大幅に進化し、図面の詳細な寸法情報やグラフの数値データなども理解して読み取ることが可能です。
具体的な使用例として、図面検索機能とグラフ理解機能が挙げられます。
図面検索機能では、条件指定に基づき該当する図面を特定し、寸法情報や仕様データを自動抽出して出力します。設計者は過去の類似事例を効率的に参照し、新規設計の参考資料として活用できます。
グラフ理解機能では、グラフ画像を解析して軸の値や線の位置を読み取り、具体的な数値データと傾向分析を含めた包括的な回答を提供します。
さらに今後は、過去の設計事例を活用した業務改善提案機能や、過去の設計図面と見積を参照して、類似製品製造時の見積を作成できるAIエージェントの開発も予定されています。
より複雑な図面や多様なグラフ形式への対応を拡大し、製造業をはじめとする各業界の業務効率化と技術革新に貢献します。
出典:PR TIMES
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら