生成AI

最終更新日:2025/04/10
Metaは2025年4月5日、ネイティブマルチモーダルAI「Llama 4」シリーズを発表しました。今回のシリーズには、公開モデルの「Scout」と「Maverick」、およびその教師モデルとして機能する「Behemoth」が含まれます。
このニュースのポイント
Metaは2025年4月5日、マルチモーダルなLLMファミリー「Llama 4」を発表しました。公開モデルの「Scout」と「Maverick」、および社内で最高性能を誇る教師モデル「Behemoth」が含まれます。
ScoutおよびMaverickは、視覚理解と生成能力を自然に統合しており、テキストと画像を同時に処理するネイティブなマルチモーダルモデルです。
従来のモデルのように、テキストと画像を別々に扱うのではなく、両者を深く統合することで、より人間らしいマルチモーダル対話が可能となりました。
これには「早期融合(early fusion)」のアプローチが採用されており、画像とテキストが最初から同時に処理され、相互作用を通じて情報の一貫性とコンテキストの精度が高まります。この手法により、モデルはテキストと画像の融合的理解を実現し、より精緻で直感的な応答が可能となります。
Scoutは、170億のアクティブパラメータを持ち、16エキスパートで構成されたモデルで、単一のNVIDIA H100 GPU上で動作することができます。
業界最長となる1000万トークンのコンテキストウィンドウを実現し、Gemma 3やGemini 2.0 Flash-Lite、Mistral 3.1といった他のモデルを含むベンチマークで優れた性能を発揮しています。特に、長文や複雑な視覚情報を統合的に処理する能力において飛躍的な向上を見せています。
Maverickは、170億のアクティブパラメータを持ちながらも128エキスパートを構成し、パラメータ数が少ないにもかかわらず、GPT-4oやGemini 2.0 Flashを凌駕する推論性能を発揮します。特に、新しいモデル「DeepSeek v3」に匹敵するコード生成能力や推論速度を誇ります。このモデルのELOスコアは1417に達しており、性能面での優位性を証明しています。
これらのモデルは、Metaが社内用に開発した最も大規模で高性能なモデル「Llama 4 Behemoth」の知識を蒸留したものです。
Behemothは2880億のアクティブパラメータを持ち、16エキスパートで構成されており、GPT-4.5やClaude Sonnet 3.7、Gemini 2.0 Proを上回る性能を誇ります。
また、今回のシリーズでは、従来の密結合型モデルとは異なり、MoE(Mixture of Experts)アーキテクチャを採用することで、各トークンごとに必要なエキスパートのみを活性化し、計算効率と推論精度の両立を実現しています。
セーフティ対策にも力を入れており、事前学習の段階でのデータフィルタリングや、ポストトレーニング中の過剰なバイアスを減らす工夫などが随所に施されています。特に政治的・社会的に議論が分かれるテーマについては、過度な拒否応答を減らしつつ、多面的な見解を理解・説明できるモデル設計を目指しています。
Metaは、これらのオープンウェイトモデルをllama.comやHugging Faceで公開するほか、WhatsApp、Messenger、Instagram Direct、Meta.AIのウェブサイトなど多様なプラットフォームを通じて提供し、パーソナライズされた高品質なマルチモーダル体験の実現を目指します。
出典:Meta
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら