生成AI

最終更新日:2025/09/09
OpenAIは、言語モデルがハルシネーションを起こす理由について論文を公開しました。
このニュースのポイント
米OpenAI社は、言語モデルがハルシネーションを起こす理由について論文を公開しました。
ハルシネーションとは、言語モデルによって生成されるもっともらしいが間違った記述のことです。例として誕生日を訪ねたりすると、本来の誕生日とは異なる日付を回答することがあります。
こうした現象はChatGPTでも発生します。最新のモデルでは推論時のハルシネーションは大幅に減りましたが、それでも完全にはなくなっていません。ハルシネーションは、あらゆる大規模言語モデルに共通する根本的な課題です。
ハルシネーションがなくならない理由として、現在の評価方法が間違っていることが挙げられます。選択式テストでは空欄にするより適当に答えた方が有利になる場合があり、多くのベンチマークでは「わからない」と回答するよりも「推測する」ことが有利になります。
Metric | gpt-5-thinking-mini | OpenAI o4-mini |
Abstention rate (no specific answer is given) |
52% | 1% |
Accuracy rate (right answer, higher is better) |
22% | 24% |
Error rate (wrong answer, lower is better) |
26% | 75% |
Total | 100% | 100% |
具体例としてsimpleQAベンチマークでは正答率だけを見ればo4-miniの方がわずかに優秀ですが、誤答率はgpt-5-thinking-miniよりはるかに高くなっています。これは不確実な時に推測することで正答率を上げる一方、誤答やハルシネーションの発生率を高めます。
解決策として「誤答」には「不確実」と答えるよりも大きなペナルティを与え、不確実性を適切に表現した回答には部分点を与えることで解決します。
そもそもどうして特定の事実に関して「もっともらしい誤答」が出てくるのかですが、一貫したパターンがあるスペルや括弧のミスに関しては規模が大きくなればなくなります。しかし「誕生日」などの低頻度でランダムな事実は予想不可能であり、ハルシネーションにつながります。
OpenAIは、最新モデルではハルシネーション率は低くなっており、言語モデルによって出力される確信度の高いエラー率を下げるために、引き続き努力をしていくとしています。
出典:OpenAI
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら