MS、Windows用AIアシスタント評価ツール公開
Microsoftは、Windows環境でAIエージェントの性能を評価するための新しいベンチマーク「Windows Agent Arena (WAA)」を発表しました。
- MS、Windows用AI評価ツール「WAA」を発表
- 150種類以上のタスクでAI能力テストが可能
- オープンソース化でAI研究を加速
WAAは、AIアシスタントが実際のWindows OSで複雑なタスクを実行する能力をテストし、開発を加速させることを目的としています。
WAAは150以上の多様なタスクを含み、文書編集、ウェブブラウジング、コーディング、システム設定などの操作をAIエージェントに行わせます。
Microsoft Azureクラウド上で並列処理を行うことで、従来の方法と比べてテスト時間を大幅に短縮しているのが大きな特徴です。
また、Microsoftは、WAAの機能を実証するために新しいマルチモーダルAIエージェント「Navi」を導入しました。
テストでは、Naviは人間の74.5%の成功率に対して19.5%の成功率を達成し、AIの進歩と課題を示しました。
WAAはオープンソース化されており、AIコミュニティ全体での研究加速を目指しています。
一方で、AIエージェントの発展に伴う倫理的な課題やセキュリティの問題にも注意を払う必要があります。
参考記事:VentureBeat
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。