生成AI

最終更新日:2026/07/01
NTT LVLM根拠強化技術
NTTが、LVLMの推論根拠を説明できるマルチモーダルXAI技術を確立しました。追加学習不要なデコーディング制御により、根拠に沿った高精度な出力をスムーズに実現します。
このニュースのポイント
NTT株式会社は、画像と言語を扱うマルチモーダルAI基盤モデルの出力信頼性を高める新たな推論の仕組みとして、「根拠強化デコーディング」技術を確立しました。
本技術は、大規模視覚言語モデル(LVLM)が段階的思考(CoT)を行う際、自身で生成した推論根拠を無視するという課題に対応するものです。画像による推論と根拠による推論を分割し、双方を重みづけて組み合わせるアプローチを採用しています。
本アプローチの導入により、LVLMが画像と根拠の双方から得られる情報を忠実に活用し、矛盾のない回答を出力することが可能になりました。
本成果は、2026年6月3日から2026年6月7日まで米国・デンバーで開催されるコンピュータビジョン分野の最難関国際会議 Computer Vision and Pattern Recognition(CVPR)2026において発表されます。
近年、大規模言語モデル(LLM)と事前学習済み画像エンコーダを統合したLVLMの開発が進み、高度なマルチモーダル推論が可能となっています。LVLMにはテキストだけでなく画像を直接入力できるため、動画像分析や動画像にもとづく複雑なマルチモーダル推論の基盤として活用が進んでいます。
LVLMにおいては、テキストと視覚情報から推論の根拠を中間的に生成して最終回答を導く「Chain-of-Thought(CoT)」が推論能力の向上や説明可能な推論手法として有効と考えられてきました。

しかし、既存のCoTメカニズムは、画像と根拠を一つの系列として入力して最終出力を生成する仕様です。そのため、推論の根拠に含まれる情報を必ず使用する構造ではなく、根拠の使用はモデル任せです。すなわち、CoTによる最終出力が、すべて自身が生成した根拠の内容に基づくとはいえません。
実際、同社の実験と分析により、既存のLVLMはマルチモーダル推論において、自ら生成した推論根拠の内容を無視して最終回答を出力してしまう傾向が明らかになりました。
例えば、推論の根拠を質問と無関係なものにすり替えても、モデルの最終出力が変わらないケースが存在します。

同社は、スライド文書の画像に対して、無関係なスポーツカーに関する根拠を入力する検証を行いました。本検証において、モデルは本来の根拠から導かれるはずの誤った回答ではなく、正しい根拠を入力した時と同じ回答を生成します。
つまり、モデルは画像のみから最終出力を生成しており、出力された推論の根拠を、回答の正確な説明として解釈できていません。

そこで同社は、既存のLVLMの推論方法を見直し、追加のデータセットやコストのかかる再学習を必要としないプラグアンドプレイ型の推論時デコーディング技術として、「根拠強化デコーディング」を確立しています。
本技術では、LVLMが次のトークンを予測する確率を、画像に条件付けられた分布と、推論根拠に条件付けられた分布に分離してかけ合わせます。画像と根拠のそれぞれから得られる情報を調和させ、矛盾のない回答を出力する仕組みです。
従来のCoTとは異なり、画像と根拠が別々にLVLMへ入力されるため、自ら生成した根拠の情報が最終出力に確実に使用されるよう保証できます。

具体的には、マルチモーダルCoTを「根拠条件付き分布の対数尤度」を報酬とした、KLダイバージェンス制約付きの報酬最大化問題として定式化しました。本問題を閉形式で解くことで、推論時の計算のみで画像と根拠の双方に明示的に基づく最適な次トークン予測を実現しています。
しかし本来、定式化した最適化問題にはLVLMの追加学習が必要であり、訓練データセットの用意や計算機環境の構築に多大なコストがかかります。
そこで本研究では、問題の最適解となる分布が、画像に条件付けられた分布と根拠に条件付けられた分布の積と等しいことを数学的に証明しました。
数理的証明の導入により、実際の実装ではモデルが出力するロジットの重み付き和を計算するだけで完結します。追加学習を一切行う必要がないため、既存のあらゆるLVLMにそのまま組み込める、極めて実用性の高い手法となっています。

同社は実験において、複数のLVLMに対して根拠強化デコーディングを適用しました。そして実験の結果、一貫して正答率などの推論性能を大幅に向上させることに成功しています。また、推論の根拠としてより高品質なテキストを与えた場合、本技術の優位性が一段と高まることが確認されました。

本技術は、これまでブラックボックスだったLVLMの推論過程に解釈性を与えられます。推論プロセスが可視化されることで、医療画像診断や人間の意思決定に係る重大なケースを扱う対話エージェントなど、確実で信頼性の高い推論システムが求められる分野でも、LVLMの社会実装が加速することが期待されます。
同社は、今後もAIの信頼性の改善や、多数のAIを連携させるAIコンステレーションの具現化につながる次世代の技術開発に貢献していきます。
出典:NTT株式会社
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら