パナソニックHD、拡散型視覚言語モデルによるマルチモーダル「LaViDa」を開発

最終更新日:2025/12/02

パナソニックHD LaViDaを開発

パナソニックHDとPRDCAは、UCLAの研究者らと共同で、拡散モデルを用いたマルチモーダルAI「LaViDa」を開発しました。

このニュースのポイント

パナソニックHDとPRDCAは、UCLAと共同で、文章生成に拡散モデルを用いたマルチモーダルAI「LaViDa」を開発
「LaViDa」は自己回帰型モデルと同等の精度を保ちながら、文章生成の速度を約2倍に
この技術はNeurIPS 2025に採択され、パナソニックHDは今後も、くらしや現場でのAI活用に向けた研究・開発を推進する方針

パナソニックホールディングス株式会社と、パナソニックR&Dカンパニーオブアメリカ（PRDCA）は、UCLAの研究者らと共同で、拡散モデルを用いたマルチモーダルAI「LaViDa」を開発しました。

近年、マルチモーダルAIは、大規模言語モデルの成功を受け、モデルの大規模化によって性能を高めてきました。しかし、従来の自己回帰型による文章生成では文章量が増えるにつれ、生成時間が増加することが課題でした。

今回開発された「LaViDa」では、文章の生成を拡散モデルで行うことで生成のスピードを可変にすることが可能になり、既存の自己回帰型手法と同等精度で、約2倍の高速化を達成しました。

この技術は、先進性が国際的に認められ、AI・MLのトップカンファレンスであるNeurIPS 2025に採択されました。2025年12月3日から2025年12月5日までアメリカ、サンディエゴで開催される本会議で発表されます。

パナソニックHDとPRDCAは、マルチモーダルAIにおける拡散モデルの研究を進めています。近年、文章やコード生成に拡散モデルを用いる手法が登場し、従来の自己回帰型モデルより高速で、詩のような構造的制約のある文章生成にも適しているとして注目されています。

一方、画像と言語を扱うマルチモーダルAIでは、これまで自己回帰型が主流で、拡散モデルの導入は進んでいませんでした。

拡散モデルを用いて文章のような離散的なデータを生成する仕組みは、文章を構成する各トークンをランダムにマスクトークンに置き換えるマスキング処理と、マスクトークンから元のトークンを復元するアンマスキング処理から構成されます。

しかし、自己回帰型のマルチモーダルAIモデルを拡散モデルにそのまま置き換えただけでは、毎回のトークン生成に要するアテンション計算が重くなってしまったり、画像の説明文にとって重要な単語が学習されない可能性が高いという二つの課題が現れます。

こうした課題を解決するため、パナソニックHDは計算量削減のために入力画像と質問文のトークンのアテンション計算から解答文のトークンを排除する工夫を導入しました

拡散モデルでは全てのトークンを参照してアテンションマップを計算する必要がありますが、パナソニックHDが提案する「Prefix-DLM」では画像トークンと質問文のトークンのアテンション計算から解答文のトークンを排除することで、計算を効率化しています。

画像の説明文にとって重要な単語が学習されない可能性が高いという課題に関しては、学習時に同じ文章に対してお互いのマスクするトークンが被らないような相補的な2通りのマスキングを用意して両方のアンマスキングを学習させ、文章の全てのトークンが必ず学習されるようにしています。

評価実験では、自然画像のQ＆Aタスクから、数学、科学の証明問題、またチャートやグラフが多数含まれるドキュメントの内容理解などさまざまな形式のデータセットを用いて有効性を検証しました。

NFEは、拡散モデルの1回のステップでどれぐらいの割合のトークンを生成するかを表す指標です。NFEが下がると生成に必要なステップ数が減少して速度が速くなる一方、性能は減少する傾向を示します。

「LaViDa」は、いずれのデータセットにおいても既存の自己回帰手法を上回る性能を獲得しました。また生成効率においても既存の自己回帰手法より高速に文章生成を行えることを確認しています。

従来の自己回帰型の手法ではプロンプトの中に細かくルールを指定する必要があり、誤認識が起きやすい原因となっていましたが、「LaViDa」ではアンマスキングの仕組みを使うことで、構造的制約のある文章でも高精度に生成することが可能です。

パナソニックHDは、「今後も、AIの社会実装を加速し、顧客のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進します」とコメントしています。

出典：パナソニックホールディングス株式会社

AIsmiley編集部

株式会社アイスマイリーが運営するAIポータルメディア「AIsmiley」は、AIの専門家によるコンテンツ配信とプロダクト紹介を行うWebメディアです。AI資格を保有した編集部がDX推進の事例や人工知能ソリューションの活用方法、ニュース、トレンド情報を発信しています。

・Facebookでも発信しています @AIsmiley.inc
・Xもフォローください @AIsmiley_inc
・Youtubeのチャンネル登録もお願いいたします@aismiley
メルマガに登録する

AIサービス: 生成AI; AIエージェント; DX推進

DXトレンドマガジンメールマガジン登録

業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

お名前 - 名

名を入力してください

メールアドレス

メールアドレスを入力してください

AI・人工知能記事カテゴリ一覧

AI・人工知能サービス

特集

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

DXトピックス

AIsmileyからご案内

SNSをフォローして、最新情報をチェックできます！

DXトレンドマガジンメールマガジン登録

メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。

お名前 - 姓・名

お名前を入力してください

お名前 - 名

お名前 - 名を入力してください

メールアドレス

メールアドレスを入力してください

ニュースPVランキング

週間PVランキング

AI活用を無料で相談する

AI製品・ソリューションの掲載を
希望される企業様はこちら

詳細はこちら

パナソニックHD、拡散型視覚言語モデルによるマルチモーダル「LaViDa」を開発

生成AIを資料請求

AI・人工知能記事カテゴリ一覧

AI・人工知能サービス

業態業種別AI導入活用事例

特集

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AIを
資料請求

ニュースPVランキング

損保ジャパン、生成AIを活用した代理店業務品質評価システムを開発

オールインワンAIワークスペース「Genspark」、日本法人を…

Sakana AI、信頼性の高いAI実装を目指しGoogleと戦…

金沢工業大学、NVIDIAと学術連携協定を締結。教育・研究の推進…

パナソニックHD、拡散型視覚言語モデルによるマルチモーダル「LaViDa」を開発

生成AIを資料請求

AI・人工知能記事カテゴリ一覧

AI・人工知能サービス

業態業種別AI導入活用事例

特集

今注目のカテゴリー

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AI

ChatGPT連携サービス

チャットボット

AI-OCR

生成AIを資料請求

ニュースPVランキング

損保ジャパン、生成AIを活用した代理店業務品質評価システムを開発

オールインワンAIワークスペース「Genspark」、日本法人を…

Sakana AI、信頼性の高いAI実装を目指しGoogleと戦…

金沢工業大学、NVIDIAと学術連携協定を締結。教育・研究の推進…

関連記事

ソフトバンクとエリクソン、万博での実証成功を受けAI外部制御による基地局のカバレッジ最適化システムを導入

AIクリエイティブ共創拠点「COLOWORKS」、德永英明のリリックビデオ「飾りじゃないのよ涙は」を全編AI技術で制作

MMD研究所とPKSHA、「コールセンター従事者に関する意識調査」を実施。顧客対応にAI支援を導入している企業は31.4%と判明

【2026年最新】AIエージェントの活用事例7選！AIの導入効果を徹底解説

【2026年最新】AIエージェント比較10選｜自律型AIの選び方を徹底解説

ChatGPTのプロジェクト機能とは？業種や部門別ビジネス活用事例・GPTsとの使い分けなどを解説

生成AIを
資料請求