LLMに完璧を求めるな！精度100%のLLMが現れない理由と適した役割を徹底解説

2024-04-132024-07-06

みなさん、「ChatGPTは精度が低いから仕事に使えない」というお話を聞いたことってありませんか？

当記事では、その議論を真っ向から論破していきます。具体的には、

そもそも「LLMの精度」とは何なのか
「精度100%のLLM」は作れるのか

といった疑問を解消！その上で「LLMにできること」をお伝えします。

完読いただくと、LLMの得意不得意がわかるかも……

ぜひ、最後までお読みください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

LLMの回答における「精度が高い」とは？

ChatGPT等LLMの回答を評価する際、しばしば登場するのが「精度」という単語です。たとえば、

GPT-4はGPT-3.5より精度が高い
旧Bardは嘘をつく（ハルシネーション）ので精度が低い
回答がしっくりこないので、精度が低い

といった表現がありますよね。これらは、一見するとLLMのスペックを言い表しているようにみえます。

ですが、LLMが扱うのは自然言語。言い換えると国語の問題になります。それを精度、つまり数学の尺度で評価するというのは、本来難しいはずです。

なお、国語的な分析である「感情認識」について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIは感情認識できる？仕組みと対応しているツール、注意点を徹底解説

LLMの定量評価を妨げる2つの要因

LLMの精度を定量的に（＝数値で）評価するのは、実質的に不可能。LLMの精度を定量評価する際には、

自然言語特有のあいまいさ
テストが網羅できる範囲の限界

が入り込んでしまうのです。それぞれが具体的にどういったものなのか、以下でみていきましょう！

自然言語特有のあいまいさ

従来型AIの場合、予測値や回答を正解と比較することで、その精度が算出できました。具体的には、

分類問題

適合率
再現率
F1スコア

回帰問題

平均絶対誤差（MAE）
平均二乗誤差（MSE）

などの手法で、精度が求められたのです。

対してLLMについては、正解ありきの評価指標が通用しません。なぜならLLMが扱う自然言語には、

自然言語特有のブレ・あいまいさ

文脈による意味の変化
- 「グラウンドを走る」と「犯罪に走る」
- 「体にやさしい」と「やさしい算数の問題」
- 「胃がむかつく」と「彼の態度にむかつく」
ニュアンスの違い
- 好意：「気に入った」と「大好き」は別物
人による解釈の違い
- 彼が冷たい：「彼の態度がそっけない」or「彼の体温が低い」
文化的・社会的背景による意味の変化
- いい人：恋愛なら「いい人止まり」 / 職場なら「感じがいい人」
- 適当：テスト・契約書なら「ふさわしい」 / 日常会話なら「いい加減・やっつけ」
- 肌色：人種によって違う
抽象概念
- 自由 / 平等 / 愛 / 幸福 / 善悪…etc.

といったブレが含まれるからです。例えるなら、国語のテストに数学の尺度で採点をするようなものですね。

テストで網羅できる範囲の限界

LLMの性能・精度を測る際、以下のようなテストが用いられています。

MMLU：理数・人文のテスト
HumanEval：コーディングのテスト
…etc.

以上の結果をもって、「専門家を超えた」「GeminiはGPT-4より優れている」などの性能比較がなされるのです。

ただ実際の運用を想定した場合、これらのテストの内容は不十分だといえます。そこで十分なテストを行いたいのですが、これは実質的に不可能。なぜなら十分なテストとは、

1.この世のプロンプトを全て予測し、
2.全人類が納得する評価基準を設けたもの

であるからです。

もし仮に以上を満たすテストが用意できたとしても、その評価を行うのは人間です。つまりLLMのテストでは常に、

評価者の主観
評価者による基準のばらつき

が介入してしまいます。

もう一点付け加えると、LLMは登場してまもない技術です。そのため、そもそも十分なテストを行うのに必要な実運用データが集まっていません。

「精度100%のLLM」が現れない4つの理由

仮にLLMに対して十分な精度の評価ができたとします。

それでも「精度100%のLLM」を目指す際には、以下4つの制約が立ちはだかります。

機械学習がもつ運要素
アーキテクチャの限界
計算資源の限界
機械学習のジレンマ

以下、LLMを縛る4つの制約について詳しくみていきましょう！

機械学習がもつ運要素

LLMは、画像認識AIや株価予測AIと同じ機械学習の応用。つまりデータをもとに、確率的にもっともらしい単語を予測しているに過ぎません。そのため、プロンプトで完全一致する回答を狙って出す、というのは不可能なのです。

仮に、あらゆる入力とそれに対する正確な出力を想定できたのであれば、そもそも機械学習という技術は生まれなかったでしょう。

アーキテクチャの限界

アーキテクチャの仕様上、LLMにも苦手なタスクが存在します。

たとえばLLMは、数学的な計算問題が苦手です。これはLLMのアーキテクチャが計算用のアルゴリズムではなく、機械学習の応用系であるから。言い換えるとLLMはそろばんではなく、おみくじなのです。

計算資源の限界

もし仮に、計算資源とストレージが無限に使えるのであれば、あらゆる入力とそれに対する正確な出力が想定できたかもしれません。つまりは「全知全能」の状態ですね。

ただ実際のところは、計算資源もストレージも有限。この制約がモデルの性能や能力に直接的な影響を与えているのです。

機械学習のジレンマ

LLMを含む機械学習モデルは、ほどほどに高精度。ある程度精度が犠牲になっている代わりに、新しい質問に対しても正確な答えが出せる（汎化性能が高い）のです。これは機械学習がもつジレンマに起因します。

そもそも機械学習における「学習」は、改善の繰り返し。基本的には説明変数を使って、目的変数に近い値を出していくプロセスです。

例えば、あなたが「人工知能の父とは誰か？」という質問に正しく答えるモデルを作るとします。この場合は、

説明変数：「人工知能の父とは誰か？」という質問
目的変数：「アラン・チューリング」という正しい答え / 訓練データ

となり、モデルの出した答えと正しい答えの差が「損失」となります。この損失を少なくしていく、というのが学習なのです。

しかし、この損失を減らし過ぎてもいけないのが学習のジレンマ。訓練データに過剰に適応したモデルは、未知のデータに対して通用しません。上記の例ですと、何を聞かれても「アラン・チューリング」としか返せない状況ですね。

このジレンマのため、現在の機械学習ではある程度の損失が許容されているのです。

なお、機械学習・AIモデルについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→AIモデルとは？種類一覧やそれぞれの仕組み・開発における選び方を解説

LLMに適したタスクとは？

LLMをシステムに組み込んだり業務に活用したりする場合、定性的に評価できるタスクが望ましいでしょう。逆に正確な数値や回答を要するタスクは、LLMに不向きです。

以上を踏まえると、LLMに適したタスクは、

アイデア生成
文章生成
感情分析（テキストをポジティブ / ネガティブ / 中立に分類する）
翻訳（正確さよりも、文脈の自然さを重視）
要約・ポイントの抽出

などになります。

なお、ChatGPTの企業活用例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→ChatGPTを会社で導入している企業と活用事例10選

精度・数字以外は、LLMにお任せあれ

当記事では「LLMの精度」があまり参考にならない理由について、解説を行いました。もう一度説明するとLLMでは、

● 十分な定量的な精度の評価ができない
● ハード・ソフトの制約上「精度100%のLLM」は作れない

という制約があります。その代わりLLMは、

アイデア生成
文章生成
感情分析
翻訳
要約・ポイントの抽出

など、定性評価ができるタスクにうってつけなんです。以上の向き不向きをおさえることで、LLMは真価を発揮してくれますよ！

最後に

いかがだったでしょうか？

弊社では、

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

→無料で相談する

大規模言語モデル（LLM）比較レポート