ハルシネーションとは?AI利用でよくある原因や対策、検知する方法をご紹介

ハルシネーション 原因 対策

生成AIに潜む「ハルシネーション」というリスクをご存知ですか?

ハルシネーションとは、AIが虚偽の情報をもっともらしい形で出力してしまう現象のことで、なんと企業が訴訟される問題にまで発展しています。

また、訴訟はされずとも、ハルシネーションを知らずに生成AIを利用し続けることで、企業や個人の信頼を失う可能性もあるので注意しなければなりません。

そこで今回の記事では、ハルシネーションの概要や原因、対策方法、検知する方法について詳しく解説します。
この記事を最後まで読めば、ハルシネーションをバッチリ対策できるようになるので、企業や個人の信頼を失わずに済みますよ。

ぜひ、最後までご覧ください。

なお弊社では、生成AIを社内で使用する際のハルシネーション対策について1時間無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

目次

ハルシネーションとは

ハルシネーションとは、AIが事実に基づかない虚偽の情報を生成してしまう現象のことです。本来は「幻覚」を意味する言葉ですが、AIが幻覚を見ているかのように「もっともらしい嘘」を出力するため、このように呼ばれています。

ハルシネーションは、主に画像や文章の生成などにおいて問題になるケースが多いので、情報を受け取る側の方も注意することが大切です。

OpenAIのハルシネーションが原因で訴訟になった事例

実は、ハルシネーションが原因で訴訟にまで発展した事例が存在します。訴えられたのは、ChatGPTを開発したことで有名なOpenAIです。

訴訟を起こしたのは、「アームド・アメリカ・ラジオ」というラジオ番組の司会者を行なっているマーク・ウォルターズ氏。こちらの男性が係争中の実際の訴訟について説明を求めたところ、「ウォルターズがセカンド・アメンドメント財団から資金をだまし取り、不法に自分のものにした」とありもしない事実を、なんと虚の告訴状まで作って回答されたとのことです。                                                      

当然、マーク・ウォルターズ氏は詐欺や横領を働いていないので、名誉を毀損されたとして訴訟を起こしています。

なお、近年問題が浮き彫りになっている「AIと著作権の関係性」について詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPTの著作権問題を分かりすく解説!訴訟事例や商用利用についても紹介

ハルシネーションが起こる原因

ハルシネーションが起こるのは、主に以下の4点が原因として考えられています。

  • 学習データの誤り
  • 文脈を重視した回答
  • 情報が古い
  • 情報の推測

それぞれの原因を詳しく見ていきましょう。

学習データの誤り

AIは、インターネット上に存在する大量のデータを学習源としています。インターネット上には、不正確な情報も多く存在するので、これらを学習してしまった結果、ハルシネーションを起こしてしまうという仕組みです。

とくに、問題視されるのが、偏った見解やフィクションも学習の対象になるということです。誤った学習データを基に生成された情報は、もちろん誤った情報になるので注意しなければなりません。

文脈を重視した回答

AIは、情報の正確性よりも文脈を重視して回答を生成することがあります。これは、入力されたプロンプト(指示文)に対し、自然な形で回答しようとしているからです。

しかし、文章を最適化する過程で情報の内容が変化してしまうことがあるため、正確ではない情報が出力されます。

情報が古い

時代が変化することによって、昔の常識が現代では通用しないということがよくあります。最新の情報に関しては、AIの学習データに含まれていない可能性があるので、ハルシネーションが起きてしまうというわけです。

ちなみに、ChatGPTが出力する内容は、2021年9月までの情報を学習源としています。それ以降の情報に関する質問を行なっても、正確な回答は得られないので注意しましょう。

情報の推測

AIは、学習データを基に、推測した情報を出力することがあります。これは、ユーザーが求める情報を提供しようと、無理やり回答を生成してしまうためです。

推測で出力された情報は、あくまで予想に過ぎないので、正確な情報とはいえません。出力された文脈だけでは、推測で出力されていることを見極めにくい場合もあるので注意しましょう。

生成AIを社内で利用する際のハルシネーション対策

生成AIを社内で利用する際は、ハルシネーション対策を事前に講じておくことが大切です。

具体的には、以下3つの対策を行いましょう。

  • 偽情報や不正確な情報を回答することを念頭におく
  • ガイドラインを作成する
  • 回答結果の確認プロセスを構築する

それぞれ具体的な対策を以下で解説していくので、ぜひ参考にしてみてください。

偽情報や不正確な情報を回答することを念頭におく

まずは、AIが偽情報や不正確な情報を回答する可能性があることを念頭におきましょう。あらかじめ予測ができていれば、ハルシネーションによる被害を防ぐことができます。

とくに危険なのが、「AIが出力する情報はすべて正しい」という思い込みです。文脈が整理されており、どこか説得力のある文章に見えてしまいますが、まずは疑うところから始めてみてください

ガイドラインを作成する

生成AIの利用に関するガイドラインを作成しておくことも、ハルシネーションの対策として有効です。とくに、生成AIを利用する際の注意点を従業員全体に周知しておくことで、ハルシネーションによる被害を軽減できます。

作成したガイドラインは、メールや書面にて全従業員に通達するほか、ポスターなどで目立つ場所に掲示しておくとよいでしょう。

回答結果の確認プロセスを構築する

生成AIで情報を出力した後は、必ず回答された情報の整合性をチェックすることが大切です。毎回確認するようにプロセスを構築しておけば、自然とハルシネーションによる被害が減っていきます。

情報の正誤を判断する際は、以下を参照するのがおすすめです。

  • 公的機関や行政のサイト
  • 専門家が運営しているサイト
  • 企業のサイト
  • 新聞記事
  • 論文や学術記事

基本的には、信頼できる1次情報から内容を確認し、AIが出力された情報が事実に基づいていることを確かめましょう。

Bardを利用する

Bardが9月のアップデートで、「ダブルチェック」という機能を実装しました。

これは、Bardが生成した内容をGoogle検索し、生成した文章のどの部分が正しい情報で、どの部分がAIによるハルシネーションなのかを識別できる機能です。

これにより、AIによる生成内容をAI自身が検知できるようになりました。

詳しく知りたい方は、以下の記事をご覧ください。
Bardの最新機能「ダブルチェック」が真実を見抜く。Googleがファクトチェック機能を公開

ChatGPTを社内で利用するリスクや対策については、以下の記事でも詳しく解説しているので、ぜひご覧ください。
ChatGPTを企業利用するリスクと対策5選|実際の企業事例と共に解説

生成AIを開発する際のハルシネーション対策

生成AIを自社で開発する際もハルシネーション対策を行う必要があります。

有効な対策法を以下にまとめました。

  • 学習データの質の向上
  • 出力の結果にフィルターをかける
  • RLHF
  • グラウンディング

以下でそれぞれ、詳しい対策方法を解説していきますね!

学習データの質の向上

生成AIは、どのようなデータを学習するかによって、情報の出力結果が変わります。学習データの質を向上させれば、実際に生成AIを運用する際に、誤った情報を出力する可能性を下げられますよ。

具体的には、誤りがある情報を極力排除することで、ハルシネーションの発生を抑えることが可能です。しかし、大量のデータに対して、学習データの取捨選択を行うのは非常に労力がかかるので、完璧に対策できるわけではありません。

出力の結果にフィルターをかける

フィルターは、出力結果から誤りや不正確な情報を除去する役割を果たします。出力の結果にフィルターをかければ、偏りのある情報や誤った情報を出力しないように制限をかけることが可能です。

ただし、AIは情報の正誤を厳密に見極めることが難しいため、こちらも完璧な対策法とはいえません。

RLHF

RLHFは、Reinforcement Learning from Human Feedbackの略です。「人間のフィードバックからの強化学習」という意味の通り、人間の価値基準に合うように言語モデルをチューニングすることを指しています。

OpenAIのInstructGPTやChatGPTにもこの手法が取り入れられており、同社がリリースしていたGPT-3と比較して、大幅にハルシネーションの発生を抑えることに成功しています。

参考記事:Aligning language models to follow instructions

グラウンディング

グラウンディングとは、AIを活用するユーザーが指定した情報源だけに基づいて、AIに回答を生成させることを指しています。通常は、AIが事前に学習した大量のデータに基づいて回答を生成しますが、グラウンディングでは事前に学習した情報は使いません。そのため、誤った情報を学習した結果、ハルシネーションが起きるというリスクを軽減できるというわけです。

GoogleCloudが提供している「Vertex AI Search and Conversation」では、すでにグラウンディングをAIチャットボットに実装する仕組みが搭載されています。

生成AIを開発する際にハルシネーションを防ぐためには

生成AIを開発する際にハルシネーションを防ぐためには、エンベディングを行うことが有効です。エンベディングとは、生成AIに独自のデータを学習させることを指しています。

エンベディングでは、まず独自のデータを集めたベクトルデータベースを作成します。生成AIが回答を出力する際は、作成したベクトルデータベースから、質問との類似度が高い数値を持つデータを検索し、回答するという仕組みです。

あとは、独自データを学習させる段階で、誤った情報さえ取り込まなければ、ハルシネーションの発生確率を格段に抑えられますよ。

なお、ChatGPTに自社データを学習させる方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPTに自社データを学習させる方法、情シスに多い悩み別に紹介

ハルシネーション対策ができるAI

ハルシネーションは、企業や個人の信頼を一瞬で落としてしまいかねない、決して無視できない問題です。このハルシネーションが頻繁に発生してしまえば、誰もインターネット上の情報を信じられなくなってしまうでしょう。

逆に、ハルシネーションさえなくなれば、AIを使った情報収集が格段に捗るようになりますね。そのうち、Webサイトの情報はすべてAIが作成する時代が来るかもしれません。

なお、ハルシネーションの問題を調査するために行われた研究結果について詳しく知りたい方は、下記の記事を合わせてご確認ください。
ついにLLMのハルシネーション問題を解決する方法が明らかに…?

ハルシネーションリスクを抑えて生成AIで業務を効率化しよう

ハルシネーションとは、AIが虚偽の情報をもっともらしい形で生成してしまう現象のことです。

ハルシネーションが起こる原因をまとめました。

  • 学習データの誤り
  • 文脈を重視した回答
  • 情報が古い
  • 情報の推測

AIは、インターネット上に存在する大量のデータを学習源としています。インターネット上には、誤った情報が数多く存在するので、それらを学習してしまうことで虚偽の情報が生成されてしまうというわけです。

また、生成AIが出力する情報は、質問に対して自然な形で回答しようとしているため、文章を最適化する過程で虚偽の情報が生成されることもあります。学習データに回答として有効な情報がない場合は、推測して情報を生成することもあるので注意しましょう。

ハルシネーションを社内利用する際は、以下の対策が有効です。

  • 偽情報や不正確な情報を回答することを念頭におく
  • ガイドラインを作成する
  • 回答結果の確認プロセスを構築する

まずは、すべての従業員が生成AIの正しい使い方を理解し、出力される情報を鵜呑みにしないことが大切です。必要に応じてガイドラインなどを作成し、回答結果を確認する工程を設けるようにしましょう。

一方、生成AIを開発する側も適切な対策が必要です。

行うべき対策を以下にまとめました。

  • 学習データの質の向上
  • 出力の結果にフィルターをかける
  • RLHF
  • グラウンディング

生成AIは、学習したデータを基に情報を出力するので、質の高い情報を学習させることが大切です。闇雲に大量のデータを学習させても、出力する情報の質は上がりません。また、フィードバックを繰り返しながらAIモデルのチューニングを行うRLHFも有効です。さらに、グラウンディングやエンベディングなどを行いながら、学習データを独自で用意したデータのみに絞るというのもよいでしょう。

このように、ハルシネーションリスクは、活用する際や開発する際にいくつかの対策が行えます。自社ができる最大限の対策を行い、生成AIで業務を効率化させましょう。

AIを使ったハルシネーション対策AIの開発

弊社では、ハルシネーション対策ができるAIの開発実績があります。

生成AIには、”ハルシネーション“という「嘘の情報を本当のことのように話す」振る舞いが問題視されています。

弊社では、様々な手法でこの問題の対処に取り組んでいますが、1つの手法として「AIを検閲するAI」の開発を行っています。

この例では、AIが生成した回答が正しいのかどうか、Google検索などので取得したデータソースにアクセスし、本当の情報であるかどうか検証しています。

他にも、論文データベースや自社の正しい情報のみが載っているデータにアクセスすることで、より高度な検閲機能の実装が可能です。

AIを使ったハルシネーション対策AIの開発に興味がある方には、まずは1時間の無料相談をご用意しております。
こちらからご連絡ください。

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「1時間の無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Hiromi Sai

    ChatGPTメディア運営 / テクニカルライター リベラルアーツ専攻。大学休学中は、Webマーケティング会社のマネージャーとしてライター、ディレクター100名のマネジメントをする。南米のチリとタイでの長期居住歴を持つ。

  • URLをコピーしました!
  • URLをコピーしました!
目次