生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2025/09/09
ハルシネーションを起こす理由
OpenAIは、言語モデルがハルシネーションを起こす理由について論文を公開しました。
このニュースのポイント
米OpenAI社は、言語モデルがハルシネーションを起こす理由について論文を公開しました。
ハルシネーションとは、言語モデルによって生成されるもっともらしいが間違った記述のことです。例として誕生日を訪ねたりすると、本来の誕生日とは異なる日付を回答することがあります。
こうした現象はChatGPTでも発生します。最新のモデルでは推論時のハルシネーションは大幅に減りましたが、それでも完全にはなくなっていません。ハルシネーションは、あらゆる大規模言語モデルに共通する根本的な課題です。
ハルシネーションがなくならない理由として、現在の評価方法が間違っていることが挙げられます。選択式テストでは空欄にするより適当に答えた方が有利になる場合があり、多くのベンチマークでは「わからない」と回答するよりも「推測する」ことが有利になります。
| Metric | gpt-5-thinking-mini | OpenAI o4-mini |
| Abstention rate (no specific answer is given) |
52% | 1% |
| Accuracy rate (right answer, higher is better) |
22% | 24% |
| Error rate (wrong answer, lower is better) |
26% | 75% |
| Total | 100% | 100% |
具体例としてsimpleQAベンチマークでは正答率だけを見ればo4-miniの方がわずかに優秀ですが、誤答率はgpt-5-thinking-miniよりはるかに高くなっています。これは不確実な時に推測することで正答率を上げる一方、誤答やハルシネーションの発生率を高めます。
解決策として「誤答」には「不確実」と答えるよりも大きなペナルティを与え、不確実性を適切に表現した回答には部分点を与えることで解決します。
そもそもどうして特定の事実に関して「もっともらしい誤答」が出てくるのかですが、一貫したパターンがあるスペルや括弧のミスに関しては規模が大きくなればなくなります。しかし「誕生日」などの低頻度でランダムな事実は予想不可能であり、ハルシネーションにつながります。
OpenAIは、最新モデルではハルシネーション率は低くなっており、言語モデルによって出力される確信度の高いエラー率を下げるために、引き続き努力をしていくとしています。
出典:OpenAI
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら