東工大と産総研、日本語能力に優れたオープンソースLLM「Swallow」公開

最終更新日:2024/04/23

東工大日本語に強いLLM Swallow公開

東工大と産総研は、日本語に強いLLM「Swallow」を公開しました。

このAIニュースのポイント

東工大と産総研、高度な日本語処理能力を持つLLM「Swallow」を公開
Llama 2へ継続事前学習を実施し、日本語能力の改善に成功
Swallowはオープンで商用利用も可能であり、日常生活や産業現場での活用が期待されている

東京工業大学情報理工学院情報工学系の岡崎直観教授と横田理央教授らの研究チーム、および国立研究開発法人産業技術総合研究所は、2023年12月19日、日本語能力の優れたLLM「Swallow」を公開しました。Swallowは、公開済みの日本語対応LLMとしては最大規模であり、オープンかつ商用利用も可能です。

昨今、OpenAI社のChatGPTやGPT-4、Google社のPaLM 2やGeminiなど、LLMの研究開発が急速に進展している一方で、現状では、日本語に強く、オープンかつ高性能なLLMは、数えるほどしか存在しません。

そうした背景から、東工大と産総研は共同研究を始め、東工大は、データの語彙拡張によるモデル学習・推論効率の改善を、産総研は、スーパーコンピュータ「AI橋渡しクラウド」を提供するとともに、継続学習によるモデルの日本語能力の改善を行いました。

また、モデルの学習データとして、東工大が国立研究開発法人新エネルギー・産業技術総合開発機構のプロジェクトで開発した大規模な日本語ウェブコーパスを用いています。

Swallowは、Meta AI社の言語理解や対話能力に優れたLlama 2の日本語能力を拡張することで構築されています。拡張前の言語処理能力を保ちつつ日本語能力を強化するため、日本語の文字や単語などの語彙を言語モデルに追加した上で、新たに開発した日本語データを活用してモデルの構築を継続的に行う継続事前学習を実施しています。

今回、パラメータ数が70億パラメータ（7B）、130億パラメータ（13B）、700億パラメータ（70B）であるモデルが公開されています。

Swallowの公開により、高度な日本語処理を必要とする対話システムなどのAI技術への注目が高まり、日常生活や産業現場での活用が期待されています。東工大は「日本におけるLLMの研究開発・活用がさらに促進され、製品開発や技術革新が進むと考えています」とコメントしています。

出典：東京工業大学