ついにLLMのハルシネーション問題を解決する方法が明らかに…?
ChatGPTなどのLLMが嘘の情報を出力してしまうハルシネーションは、企業でLLMを利用する上で重大な問題になりかねません。ハルシネーションにより、企業の信頼を損なうだけでなく、法律上の問題が発生するリスクもあります。
そこで、最新LLMの論文である「Do Language Models Know When They’re Hallucinating References?」では、「LLMがハルシネーションを自覚し、それを利用してハルシネーションを減らせる」ことが示唆されています。この論文の技術を上手く活用すれば、ハルシネーション問題が解決できるかもしれません。
果たして、それだけでハルシネーションの問題を解決できるのでしょうか?
LLMだけではハルシネーションを解決できないのか?
昨今よく議論されているLLMの問題点として、ハルシネーションが挙げられます。ハルシネーションとは、簡潔に言うと「LLMが噓の情報を出力する」という問題です。
本研究では、このハルシネーションの問題に焦点を当てて、ハルシネーションの原因や対策法を見つけるための実験が行われました。本研究における調査対象・目的は、以下の通りです。
- LLMがハルシネーションを起こす原因
- ハルシネーションに対する対策法
- LLMが自身のハルシネーションを、自分で気づけるかどうか
これらを目的として、著者らは「LLMによって生成されたデータの事実と一貫性」のチェックを行いました。その結果、ハルシネーションを改善するために、LLMの生成パイプラインを見直すことが重要であることが分かったのです。
ハルシネーションとは?
ハルシネーションとは、LLMが「噓の情報」を出力してしまう問題のことです。
LLMによって出力された噓の情報は、文献レビューや論文レビューなどのアプリケーションに影響を与えるだけでなく、医学のような分野においても害を及ぼす可能性があるため、LLMを使用する際の問題となっています。
なお、ハルシネーションについて知りたい方はこちらをご覧ください。
→AIのハルシネーションとは?ChatGPTでよくある原因や対策、検知する方法をご紹介
LLMにあらゆる質問をして一貫性を評価
本研究では、「あらかじめ用意しておいた質問テンプレートをLLMに投げかけ、その回答の内容を評価する」という実験が行われました。
具体的な実験の手順としては、以下の通りです。
- 質問テンプレートをLLMに投げかける
- さらに詳細な質問を投げかける
- 回答の内容(ハルシネーションか否か)を評価
あらかじめ以下のような3つの質問テンプレートを用意しておき、それらの質問をLLMに投げかけます。
上記の画像は、3つの質問テンプレートの例です。
次のステップでは、先ほどの質問に関連する、より詳細な複数の質問をLLMに投げかけます。こうすることで著者らは、どのような質問がハルシネーションを引き起こすのか、その原因を探ろうとしました。
そして、その質問へのLLMの回答に対して、以下の観点で評価をしています。
- 回答の一貫性
- 回答の事実性
また本研究では、回答の生成や評価において、以下の3つのLLMが使用されています。
- GPT-3 (text-davinci-003)
- ChatGPT (gpt-35-turbo)
- GPT-4 (gpt-4)
さらに、上記のLLMが生成した回答の事実性を確認するために、「Bing Search API」を使用しています。Bing Search APIとは、Microsoftの提供する検索エンジンであるBingでの検索結果を取得するためのAPIのことです。
そして、もしBing検索にヒットすれば、「LLMの出力内容に事実性があり、ハルシネーションは起きていない」という認識になるのです。
ハルシネーションを減らすには生成パイプラインの改善が有効ということが明らかに
本研究の結果として、ハルシネーションを起こした情報を、確実に特定できることが分かりました。ただし、実験の詳細や数値、定性的な知見は論文の中で論じられているが、具体的な定量的結果は本稿内では述べられていません。
そのため、本当に本手法が有効なのか客観的にはわからない点に注意が必要です。
また、筆者らは、「ハルシネーションの削減には、生成パイプラインの変更が有効」だと結論付けました。生成パイプラインとは、「LLMが文章を学習し、それをもとに文章を生成する」までのプロセスのことです。
要するに「モデルの構造自体を工夫して変えろ」ということだと筆者は理解しています。本論文で述べられているハルシネーションを削減するための工夫ポイントは、以下の2点です。
- LLMに対して、必ず「実在する情報」から引用させる
- LLMが生成した文章の事実確認をして、必要ならば修正する
ちなみに、各LLMの生成内容におけるハルシネーションの割合は、以下の通りになったそうです。
やはり、比較的最新のモデルほど、ハルシネーションを引き起こす確率が低く、精度が高いことが分かります。
それにしても、ChatGPTのハルシネーションの割合が「59.6%」であるということは、「ChatGPTは2回に1回以上は、噓をつく」ということなのか?
GPT-3に至っては、73.6%…。ほぼ嘘をついていますね。
ChatGPTは、この情報を踏まえた上で活用しましょう。
なお、ChatGPTについて知りたい方はこちらをご覧ください。
→ChatGPT-3.5とGPT-4の違いとは?料金や機能、使い方について徹底比較
重大なハルシネーション対策に有用か
この研究で提案されたのは、ズバリ「ハルシネーションの自己検出」のための手法でした。
ハルシネーションの問題が注目されている昨今において、非常に興味をそそられる内容だったと思います。ハルシネーションは特に有害であり、及ぼす影響も大きいので、こういった類の技術は早く実用可能になって欲しいです。
しかし、本研究には以下のような問題点があるのではないかと思います。
- 事実検証をBingの検索エンジンに頼りすぎていること
- 3つの特定のLLMに焦点を絞っているため、LLM全般に言えることか不明であること
今後の研究では、これらの問題点を克服し、提案された手法の妥当性を向上させることを目指すべきかなと感じます。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。