rinna社、日本語版GPT-2とBERTを無料公開

最終更新日:2024/04/10

rinna社は、日本語GPT-2とBERTの事前学習モデルを開発しオープンソース化しGitHubとHuggingFaceに公開しました。

このAIニュースのポイント

rinna社は、日本語GPT-2とBERTの事前学習モデルを開発しオープンソース化
GPT-2は、単語の確率の組み合わせから文の確率を計算する言語モデル
BERTは、予測したい単語の前の単語だけでなく後の単語も考慮して予測するモデル

rinna株式会社は、製品開発のための実験過程で、日本語に特化したGPT-2とBERTの事前学習モデルを開発しました。日本語の自然言語処理（NLP）の研究・開発コミュニティに貢献するために、開発した事前学習モデルとその学習を再現するためのソースコードを、GitHubおよびNLPモデルライブラリHuggingFaceにMITライセンスのオープンソースとして公開します。

rinna社は、2021年4月に日本語に特化した中規模サイズのGPT-2（GPT2-medium）を公開し、反響を呼びました。そして今回、モデルサイズが異なる2つのGPT-2（GPT2-small, GPT2-xsmall）を公開。モデルサイズの違いはパフォーマンスとコストのトレードオフであり、研究者や開発者が最善のモデル選択をすることが可能となります。また、GPT2-mediumも、学習データと学習時間を増やし、より高性能なモデルへとアップデートされています。

さらに、GPT-2に加え、BERTを改良したモデルであるRoBERTaも公開。 GPT-2とBERTの公開により利用者は目的に合わせたモデル選択や、追加学習により多様なタスクへの応用が可能となります。

日本語GPT-2の機能

言語モデルは、会話や文章の「人間が使う言葉」を確率としてモデル化したものです。優れた言語モデルとは、確率を正確に推定できるものを指します。例えば、 “確率(吾輩は猫である)＞確率(吾輩が猫である)” と推定できるのが、言語モデルの能力です。

GPT-2は、単語の確率の組み合わせから文の確率を計算する言語モデルです。例えば、 “確率(吾輩は猫である)＝確率(吾輩)×確率(は|吾輩)×確率(猫|吾輩,は)×確率(で|吾輩,は,猫)×確率(ある|吾輩,は,猫,で)” のような方法で推定を行います。この性質を用いて、GPT-2は「吾輩は」という単語を入力したとき、次にくる単語として確率が高い「猫」を予測することができます。

講演後のメールの文脈で文章を自動生成
（上記のデモでは生成する文章の文字数上限を設定しており、実際に生成される全文ではありません。）

今回、rinna社が公開した日本語GPT-2は、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できます。例えば「本日はご参加ありがとうございました。誰も到達していない人工知能の高みへ、ともに」という講演後のメールを想定した文章をGPT-2に入力として続きの文章を自動生成すると、図1のように入力文章の文脈を考慮した文章が生成されます。

日本語BERTの機能

GPT-2は、予測したい単語より前の単語を考慮して次の単語を予測する言語モデルです。これに対してBERTは、予測したい単語の前の単語だけでなく後の単語も考慮して予測を行います。GPT-2では「吾輩」「は」を考慮して「猫」を予測しますが、BERTでは前の単語「吾輩」「は」と後ろの単語「で」「ある」を考慮して「猫」を予測します。

GPT-2とBERTによる単語予測

今回公開するRoBERTaは、BERTを改良したモデルであり、BERTより高い性能が報告されています。RoBERTaを用いて、「4年に1度、[MASK]は開催される。」の[MASK]部分を予測すると、オリンピックやワールドカップといった4年に1度開催されるイベントが上位に予測されます。

「4年に1度、[MASK]は開催される。」の[MASK]部分を予測した結果

文章生成タスクにおいては、文章を1単語ずつ順次予測するGPT-2がよく用いられますが、文章分類タスクなどの文章全体を考慮したタスクにおいては、BERTがよく用いられます。文章分類タスクの他にも、質問応答タスクや固有表現認識タスクなど多様なタスクに適用することが可能です。

rinna社の日本語事前学習モデルの特徴

学習データとして、日本語CC-100と日本語Wikipediaの計75ギガバイトのオープンソースデータを使用
8つのNVIDIA Tesla V100 GPUを用いて、75ギガバイトの日本語テキストを、最大45日間かけ学習。その結果、すべてのモデルにおいて、十分に学習された汎用性があるモデルとなっています。学習された事前学習モデルはHuggingFaceにMITライセンスで公開中。
事前学習モデルの学習に用いたソースコードはGitHubにMITライセンスで公開されています。利用者は、日本語CC-100とWikipediaのオープンソースデータを用いることで、自分のマシンで当社の結果を再現可能。
GPT-2ではモデルサイズが異なるGPT2-medium（3.36億パラメータ）、GPT2-small （1.10億パラメータ）、GPT2-xsmall （0.37億パラメータ）の3つのモデルを公開。さらに、BERTを改良したRoBERTa （1.10億パラメータ）も公開しています。利用者は目的に合わせたモデルを選択することができる。
利用者の目的に沿った多様なタスク（ドメインに特化した文章生成、文章分類、質問応答など）を、当社が公開した事前学習モデルを用いた追加学習により実現可能。

rinna社は、研究・開発コミュニティに貢献するために、研究成果を今後も公開していく予定です。さらに、他社との協業も進めることで、AIの社会実装の拡大を目指します。

出典：PR TIMES