NTT、LVLMの推論根拠を説明できるマルチモーダルXAI技術を確立。追加学習コストなしで運用可能

最終更新日:2026/07/01

NTT LVLM根拠強化技術

NTTが、LVLMの推論根拠を説明できるマルチモーダルXAI技術を確立しました。追加学習不要なデコーディング制御により、根拠に沿った高精度な出力をスムーズに実現します。

このニュースのポイント

NTTは、LVLMの推論において根拠と結果が一貫しない課題に対し、出力を画像と根拠の両方に忠実に依存させる「根拠強化デコーディング」技術を確立
これまでブラックボックスだったLVLMを追加の学習コストなしで説明可能AIとして運用可能
ビジネスでの意思決定や複雑な課題解決など、より高い信頼性が求められるユースケースへの応用に期待

NTT株式会社は、画像と言語を扱うマルチモーダルAI基盤モデルの出力信頼性を高める新たな推論の仕組みとして、「根拠強化デコーディング」技術を確立しました。

本技術は、大規模視覚言語モデル（LVLM）が段階的思考（CoT）を行う際、自身で生成した推論根拠を無視するという課題に対応するものです。画像による推論と根拠による推論を分割し、双方を重みづけて組み合わせるアプローチを採用しています。

本アプローチの導入により、LVLMが画像と根拠の双方から得られる情報を忠実に活用し、矛盾のない回答を出力することが可能になりました。

本成果は、2026年6月3日から2026年6月7日まで米国・デンバーで開催されるコンピュータビジョン分野の最難関国際会議 Computer Vision and Pattern Recognition（CVPR）2026において発表されます。

近年、大規模言語モデル（LLM）と事前学習済み画像エンコーダを統合したLVLMの開発が進み、高度なマルチモーダル推論が可能となっています。LVLMにはテキストだけでなく画像を直接入力できるため、動画像分析や動画像にもとづく複雑なマルチモーダル推論の基盤として活用が進んでいます。

LVLMにおいては、テキストと視覚情報から推論の根拠を中間的に生成して最終回答を導く「Chain-of-Thought（CoT）」が推論能力の向上や説明可能な推論手法として有効と考えられてきました。

しかし、既存のCoTメカニズムは、画像と根拠を一つの系列として入力して最終出力を生成する仕様です。そのため、推論の根拠に含まれる情報を必ず使用する構造ではなく、根拠の使用はモデル任せです。すなわち、CoTによる最終出力が、すべて自身が生成した根拠の内容に基づくとはいえません。

実際、同社の実験と分析により、既存のLVLMはマルチモーダル推論において、自ら生成した推論根拠の内容を無視して最終回答を出力してしまう傾向が明らかになりました。

例えば、推論の根拠を質問と無関係なものにすり替えても、モデルの最終出力が変わらないケースが存在します。

同社は、スライド文書の画像に対して、無関係なスポーツカーに関する根拠を入力する検証を行いました。本検証において、モデルは本来の根拠から導かれるはずの誤った回答ではなく、正しい根拠を入力した時と同じ回答を生成します。

つまり、モデルは画像のみから最終出力を生成しており、出力された推論の根拠を、回答の正確な説明として解釈できていません。

そこで同社は、既存のLVLMの推論方法を見直し、追加のデータセットやコストのかかる再学習を必要としないプラグアンドプレイ型の推論時デコーディング技術として、「根拠強化デコーディング」を確立しています。

本技術では、LVLMが次のトークンを予測する確率を、画像に条件付けられた分布と、推論根拠に条件付けられた分布に分離してかけ合わせます。画像と根拠のそれぞれから得られる情報を調和させ、矛盾のない回答を出力する仕組みです。

従来のCoTとは異なり、画像と根拠が別々にLVLMへ入力されるため、自ら生成した根拠の情報が最終出力に確実に使用されるよう保証できます。

具体的には、マルチモーダルCoTを「根拠条件付き分布の対数尤度」を報酬とした、KLダイバージェンス制約付きの報酬最大化問題として定式化しました。本問題を閉形式で解くことで、推論時の計算のみで画像と根拠の双方に明示的に基づく最適な次トークン予測を実現しています。

しかし本来、定式化した最適化問題にはLVLMの追加学習が必要であり、訓練データセットの用意や計算機環境の構築に多大なコストがかかります。

そこで本研究では、問題の最適解となる分布が、画像に条件付けられた分布と根拠に条件付けられた分布の積と等しいことを数学的に証明しました。

数理的証明の導入により、実際の実装ではモデルが出力するロジットの重み付き和を計算するだけで完結します。追加学習を一切行う必要がないため、既存のあらゆるLVLMにそのまま組み込める、極めて実用性の高い手法となっています。

同社は実験において、複数のLVLMに対して根拠強化デコーディングを適用しました。そして実験の結果、一貫して正答率などの推論性能を大幅に向上させることに成功しています。また、推論の根拠としてより高品質なテキストを与えた場合、本技術の優位性が一段と高まることが確認されました。

本技術は、これまでブラックボックスだったLVLMの推論過程に解釈性を与えられます。推論プロセスが可視化されることで、医療画像診断や人間の意思決定に係る重大なケースを扱う対話エージェントなど、確実で信頼性の高い推論システムが求められる分野でも、LVLMの社会実装が加速することが期待されます。

同社は、今後もAIの信頼性の改善や、多数のAIを連携させるAIコンステレーションの具現化につながる次世代の技術開発に貢献していきます。

出典：NTT株式会社

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています @AIsmiley.inc
・Xもフォローください @AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aismiley
メルマガに登録する

AIサービス: LLM; AI研究開発; 生成AI; 自然言語処理-NLP-

DXトレンドマガジンメールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

お名前 - 名

名を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

AI・人工知能サービス

特集

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

DXトピックス

AIsmileyからご案内

SNSをフォローして、最新情報をチェックできます！

DXトレンドマガジンメールマガジン登録

メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

お名前 - 名

お名前 - 名を入力してください

メールアドレス

メールアドレスを入力してください

ニュースPVランキング

週間PVランキング

AI活用を無料で相談する

AI製品・ソリューションの掲載を
希望される企業様はこちら

詳細はこちら

NTT、LVLMの推論根拠を説明できるマルチモーダルXAI技術を確立。追加学習コストなしで運用可能

AI研究開発を資料請求

AI・人工知能記事カテゴリ一覧

AI・人工知能サービス

業態業種別AI導入活用事例

特集

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

AI研究開発を
資料請求

ニュースPVランキング

Sakana AI、マルチエージェント基盤「Sakana Fug…

Microsoft、「Copilot Cowork」一般提供を開…

NECとJR東日本、「みどりの窓口AI対応サービス」の実現に向け…

2026年上半期トレンドワードランキングをPR TIMESが公開…

NTT、LVLMの推論根拠を説明できるマルチモーダルXAI技術を確立。追加学習コストなしで運用可能

AI研究開発を資料請求

AI・人工知能記事カテゴリ一覧

AI・人工知能サービス

業態業種別AI導入活用事例

特集

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

AI研究開発を資料請求

ニュースPVランキング

Sakana AI、マルチエージェント基盤「Sakana Fug…

Microsoft、「Copilot Cowork」一般提供を開…

NECとJR東日本、「みどりの窓口AI対応サービス」の実現に向け…

2026年上半期トレンドワードランキングをPR TIMESが公開…

関連記事

Claude Sonnet 5とは？性能・料金・Sonnet 4.6との違いを徹底解説

GPT-5.6とは？進化点や活用方法・従来のモデルとの違いを徹底解説

Google Workspace Studioで実現する、AI時代の業務ルーティン──AIが裏で勝手に働き出す「イベント駆動型」の自動化

買物での生成AI利用調査結果を発表。生成AIの回答信頼度はレビューを上回る51.7%

コンテキストエンジニアリングとは？手法・プロンプトエンジニアリングとの違い・業種別の活用を解説

PKSHA InfinityのAI議事録作成ツール「YOMEL」、福井県に全庁導入。高精度な文字起こしと話者分離

AI研究開発を
資料請求