Sierra、会話型AI評価の新ベンチマーク開発
OpenAIの取締役会メンバー、Bret TaylorとGoogleのAR/VRのベテラン、Clay Bavorが設立した顧客体験AIスタートアップSierraは、会話型AIエージェントの性能を評価するための新しいベンチマーク「TAU-bench」を開発しました。
- Sierraが新ベンチマーク「TAU-bench」を開発。
- 既存のベンチマークでは信頼性不足。
- 全エージェントがタスク解決に苦労。
このベンチマークでは、エージェントが複数のやり取りを通じて必要な情報を集め、複雑なタスクを完了する能力を評価します。
初期の結果から、関数呼び出しやReActのようなシンプルなLLM構造では「比較的簡単なタスク」でもうまくいかないことが示されました。
Sierraの研究責任者であるKarthik Narasimhanは、既存のベンチマークがエージェントの高レベルな能力を明らかにするだけで、現実的なシナリオでの信頼性や適応性の評価が不足していると指摘。
TAU-benchは、現実的なデータベースやツールAPIを使用し、複雑なポリシーやルールに従い、リアルな会話を生成するLLMベースのユーザーシミュレータを活用してエージェントの性能を評価します。
Sierraのテストでは、OpenAI、Anthropic、Google、Mistralの12のLLMが試されましたが、すべてのエージェントがタスクの解決に苦労し、信頼性においても一貫性が欠如していることが明らかになりました。
Narasimhanは、推論と計画を改善するために、より高度なLLMと詳細な評価指標が必要であると結論付けています。
参考記事:VentureBeat
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。