生成AIのハルシネーションとは？発生の原因やリスク、その対策について

最終更新日:2024/05/16

近年、生成AI（Generative AI）の発展により、自然言語処理や画像生成の分野で目覚ましい進歩が見られます。しかし、その一方で「ハルシネーション」と呼ばれる問題が指摘されています。ハルシネーションとは、AIが学習データにはない誤った情報を生成してしまう現象のことを指します。

本記事では、「生成AIやハルシネーション」について、以下の項目について解説しています。

生成AIにおけるハルシネーションの種類や発生原因
ハルシネーションのリスクと対策
ハルシネーションで裁判になった事例

生成AIについて詳しく知りたい方は、以下の記事も併せてご覧ください。
生成AI(ジェネレーティブAI)とは？使い方・種類・仕組み・活用事例を解説

生成AI のサービス比較と企業一覧

ハルシネーションとは？種類や発生原因について

この章では、ハルシネーションについて詳しく説明していきます。

ハルシネーションとは?

ハルシネーションは、本来存在しない情報を、AIが誤って生成してしまう現象のことです。AIは大量のデータから統計的な規則性を学習しますが、その過程で誤った関連性を見出してしまうことがあります。その結果、事実に基づかない情報や、存在しない情報を生成してしまう場合があります。ハルシネーションは自然言語処理や画像生成など、様々な分野のAIで確認されています。

ハルシネーションの種類

ハルシネーションには大きく分けて2つの種類があります。

種類	内容
Intrinsic Hallucinations	学習データとは異なる内容の回答を出力
Extrinsic Hallucinations	学習データに存在しない内容を回答として出力

ハルシネーション発生の原因

ハルシネーションが発生する主な原因は以下の通りです。

情報が古い

AIは過去のデータを基に学習するため、最新の情報を反映できていない場合があります。例えば、ある企業に関する情報を学習したAIが、その後その企業に起こった大きな変化を知らないと、古い情報に基づいた不適切な回答を生成してしまうことがあります。

単語や文章の意味を理解していない

AIは単語の表層的な並びは理解できますが、深い意味を理解しているわけではありません。そのため、文脈に合わない単語を選んでしまうことがあります。

情報の正誤判定ができない

AIには情報の正誤を判断する能力がありません。学習データに誤った情報があると、それを真実として扱ってしまいます。例えば、「太陽は地球の周りを回っている」という誤った情報を学習したAIは、その情報を正しいものとして利用し、誤ったアウトプットを生成することがあります。

学習データの不足や誤った組み合わせ

学習データに不足や偏りがあることで、AIが学習データの一般的な情報を適切に学習できず、ハルシネーションが生じる可能性があります。

例えば、ChatGPTのような大規模な言語モデル（LLM）は、インターネット上の膨大なテキストデータを学習しています。しかし、このデータには特定の話題や意見など、情報に偏りがある可能性があります。その結果、ユーザーが偏った内容のトピックについて質問した場合、LLMは適切な回答を生成できず、ハルシネーションが発生する可能性が考えられます。

また、LLMが学習に使用するデータは、主に2021年までのものであるため、それ以降の出来事や最新の情報が反映されていない可能性があります。そのため、ユーザーが最新のトピックについての質問をした場合、LLMは古い情報に基づいて不適切な回答を生成してしまうかもしれません。

ハルシネーションのリスクと対策

ハルシネーションのリスク

ハルシネーションは、以下のようなリスクをもたらす可能性があります。

1.事実とは異なる情報が拡散されるリスク

ハルシネーションによって生成された誤情報が、まるで真実であるかのように広まってしまう危険性を持っています。これにより、社会的な混乱を招く恐れがあります。

2.個人や組織の名誉が傷つけられるリスク

ハルシネーションにより、特定の個人や組織に対する誤った情報・誹謗中傷が生成される可能性が考えられます。これにより、特定の個人や組織の名誉が傷つけられ、社会的信用が失墜する恐れがあります。

3.重要な意思決定が誤った情報に基づいて行われるリスク

企業や組織が、ハルシネーションにより生成された誤情報を基に、重要な意思決定を下してしまう危険性が考えられます。これにより、経済的損失や社会的混乱を招く恐れがあります。

ハルシネーションが発生する確率を減らすには？

ハルシネーションへの対策としては、以下のような取り組みが行われています。

プロンプトエンジニアリングでアウトプットの質を上げる

適切なプロンプト（AIへの指示）を設計することで、AIが生成する情報の質を高めることができます。具体的には、以下のような工夫が行われています。

事実に基づいた回答を要求する
情報ソースの開示を求める
曖昧な表現を避け、明確な指示を与える

これらの工夫により、ハルシネーションの発生を抑制することが可能です。

ファインチューニングで情報の精度を上げる

追加の学習データを用いてモデルを微調整（ファインチューニング）することで、情報の精度を高めることができます。具体的には、以下のような手順で行われます。

高品質な追加データを収集する
追加データを用いて、既存のモデルを再学習させる
再学習後のモデルの性能を評価し、必要に応じて調整を行う

ただし、大量の高品質なデータが必要となるため、コストがかかるという課題があります。

生成AIの虚偽情報で裁判になってしまった例

生成AIのハルシネーションが原因で、実際に法的問題に発展したケースもあります。

弁護士がChatGPTを使い、虚偽の判例が裁判資料に

アメリカの弁護士がChatGPTを利用して民事裁判の資料を作成しましたが、その中に引用された航空会社を巡る複数の判例が、実際には存在しない「偽の判例」であることが判明しました。この事例は、ニューヨークに向かう飛行機内での事故に関する訴訟で起きたもので、ChatGPTによって生成された内容が問題となりました。この出来事は、生成AIの利用における注意点を浮き彫りにしています。

参照:朝日新聞DIGITAL「弁護士がChatGPTを使ったら　「偽の判例」が裁判資料に　米国」

ChatGPTが名誉棄損。「横領を働いた」とする虚偽の情報をでっち上げ裁判に

米国のラジオパーソナリティであるマーク・ウォルターズ氏が、OpenAIのチャットボットであるChatGPTが自身について虚偽の情報を生成したとして、OpenAIを名誉毀損で訴えました。これは、AIチャットボットに対する初の名誉毀損訴訟となる可能性があります。

訴状によると、ジャーナリストがウォルターズ氏に関する情報をChatGPTに尋ねたところ、ChatGPTは、ウォルターズ氏が非営利団体から金銭を横領したという虚偽の情報を提供したそうです。ウォルターズ氏は、この虚偽情報についてOpenAIに責任があると主張しています。

チャットボットは免責条項を掲げているため、訴訟の根拠が弱まる可能性があります。また、ジャーナリストが誤った情報を記事にしなかったことも、今回の訴訟に不利に働く可能性があります。

この訴訟は、AIによる名誉毀損の前例として、画期的なテストケースになる可能性を持っています。将来のAI名誉毀損訴訟における、重要な法的懸念点を提起することになるでしょう。

参照:日経クロストレンド「チャットボットは名誉毀損で罪に問われる？　米の訴訟が試金石に」

まとめ

生成AIにおけるハルシネーションは、その便利さと引き換えに生じる重大な問題です。AIを開発する側は、ハルシネーションを最小限に抑えるための技術的な工夫を怠らないことが大切です。また、AIを利用する側も、AIの限界を理解し、情報を鵜呑みにせず吟味する姿勢が求められます。

ハルシネーションは、AIの社会実装における大きな障壁の一つと言えるでしょう。技術の進歩と、それを適切に活用するための社会的な枠組み作りの両軸が重要です。生成AIの健全な発展のためには、開発者、利用者、法制度の三位一体となった取り組みが不可欠です。

生成AIの技術は日進月歩で進化しており、ハルシネーションの問題もいずれ克服される可能性があります。しかし、技術的な解決を待つだけでなく、ユーザー教育や法整備など、社会全体で取り組むべき課題であることを忘れてはなりません。ハルシネーションと適切に付き合いながら、生成AIの可能性を追求していくことが、私たち一人一人に求められていると言えるでしょう。

AIについて詳しく知りたい方は以下の記事もご覧ください。
AI・人工知能とは？定義・歴史・種類・仕組みから事例まで徹底解説

また、生成AIの具体的なサービスを知りたい方は、以下もご覧ください。

生成AI のサービス比較と企業一覧