Money Forward Labと理化学研究所、日本語インストラクションデータで学習されたLLM「houou-7b」を公開

最終更新日:2023/12/12

マネーフォワード大規模言語モデル houou-7bを公開

Money Forward Labと、国立研究開発法人理化学研究所は、日本語インストラクションデータを用いて学習させたLLM「houou-7b」を公開しました。

このAIニュースのポイント

Money Forward Labと理化学研究所、日本語インストラクションデータで学習されたLLM「houou-7b」を公開
rinna社の「Youri7B」にインストラクションチューニングを実施し、回答生成の精度が大幅に向上
Money Foward Labは今後、経理財務や人事労務領域に特化したインストラクションデータの開発にも取り組む姿勢

株式会社マネーフォワードは、同社の研究開発組織Money Forward Labと、国立研究開発法人理化学研究所革新知能統合研究センター言語情報アクセス技術チームが共同で取り組むLLMに関する研究において、日本語インストラクションデータを用いて学習させたLLM「houou-7b」を公開しました。

LLMにおいて特定の言語や領域で高い精度を得る為には、追加の学習が必須です。追加学習には、タスクとそれに対する出力の指示（インストラクション）のデータセットを学習させるインストラクションチューニングという追加学習の手法があり、今回の共同研究では日本語のインストラクションデータを開発することに注力しています。

Money Forward Labは、共同研究で収集した最新の2,903件のインストラクションデータを活用し、rinna株式会社が開発した「Youri7B」に対してインストラクションチューニングを実施しました。

今回チューニングを行ったモデル「houou-7b」と、他のインストラクションデータを用いて学習したモデルを比較すると、回答生成の精度が大幅に向上しており、少量であっても質の高い日本語データを作成することで、効果的にLLMを追加学習できることが確認されました。「moneyforward/houou-instruction-7b-v1（houou-7b）」は、LLAMA 2 Community Licenseで公開しています。

Money Foward Labでは、共同研究で作成したインストラクションデータのアップデートに合わせて、2024年3月まで継続的にモデルをリリースしていく予定です。また、本研究を通して得た知見を元に、日本国内の経理財務や人事労務領域に特化したインストラクションデータの開発にも取り組んでいくとコメントしています。

出典：株式会社マネーフォワード