ELYZA、グローバルモデルに匹敵する700億パラメータの日本語LLMを開発

最終更新日:2024/03/19

ELYZA グローバルモデル匹敵の日本語LLM開発

ELYZAは、グローバルモデルに匹敵する性能を保持し、国内モデルの中では最高性能を実現する日本語の大規模言語モデルを開発しました。

このAIニュースのポイント

ELYZAが700億パラメータの「ELYZA-japanese-Llama-2-70b」を開発
グローバルモデルに匹敵する性能を実現し、国内モデルの中では最高性能を持つ
独自開発した日本語LLM群を「ELYZA LLM for JP」シリーズとして、APIサービスなど順次提供予定

株式会社ELYZAは、700億パラメータの最新モデル「ELYZA-japanese-Llama-2-70b」を開発し、グローバルモデルと同等の性能を実現しました。また、今回のモデルを含むELYZAの日本語大規模言語モデル群を「ELYZA LLM for JP」シリーズとして提供すると発表しました。

今回新たに開発された「ELYZA-japanese-Llama-2-70b」は、ELYZAが公開している日本語ベンチマーク「ELYZA Tasks 100」を用いた人手によるブラインド性能評価や、Stability AIが提供するベンチマーク「Japanese MT-Bench」の自動評価で、公開されている日本企業の大規模言語モデルを大きく上回っています。

ELYZA Tasks 100による性能評価（国内モデルとの比較）

また、OpenAIの「GPT-3.5 Turbo (0125)」やAnthropicの「Claude 2.1」などのグローバルモデルと同等のスコアを獲得しています。

現時点で国内プレイヤーが公開するモデルの中で最高スコアを獲得しており、本モデルと同じく「Llama 2 70B」をベースとする他の日本語 LLMよりも優れた性能を発揮していることから、ELYZA 独自の事後学習による成果が大きいことが確認できます。

さらに、OpenAIやAnthropic、Googleなどのグローバルモデルにも匹敵する性能を発揮しています。特に人文学や科学技術に関する知識、執筆カテゴリでは、総合スコア首位のOpenAI社の「GPT-4 (0613) 」とも同等のスコアを達成しています。

さらに、「Japanese MT-Bench」による性能評価では、Googleの「Gemini 1.0 Pro」やOpenAIの「GPT-3.5 Turbo (1106)」などのグローバルモデルにも匹敵する性能を発揮しています。特に、人文学や科学技術に関する知識、執筆カテゴリでは、総合スコア首位のOpenAI社の「GPT-4 (0613) 」とも同等のスコアを達成しています。

ELYZAは今回開発したモデルを皮切りに、グローバルプレイヤーと競合できる汎用LLMの開発・改善を進めるほか、業界や企業に特化したLLM開発も計画しています。これらは「ELYZA LLM for JP」シリーズとして提供され、セキュリティやカスタマイズ性を重視する企業や、自社サービスや事業にLLMを組み込みたい企業に向けて、安全なAPIサービスや共同開発プロジェクトなどを通じて提供される予定です。

ELYZAは、「今後も日本語LLMの研究開発を進め、より高性能な日本語LLMの実現に向けて継続して投資をしてまいります」とコメントしています。

出典：PR TIMES