OpenAI、新手法「RBR」でAIモデルの安全性向上へ
OpenAIは、新しいAIモデルの教育手法「Rules Based Rewards (RBR)」を発表しました。この手法はモデルの微調整を自動化し、モデルが意図しない結果を出さないようにする時間を短縮するものです。
- OpenAIが新手法RBRを発表
- RBRでモデル微調整を自動化
- 公平性と正確性の確保を推奨
安全システム責任者のLilian Weng氏は、「従来の人間のフィードバックによる強化学習では、ポリシーの微細な点に多くの時間を費やし、最終的にポリシーが進化してしまうことがある」と指摘しています。
RBRでは、安全およびポリシーチームが作成したルールに基づいてモデルの応答を評価します。
例えば、メンタルヘルスアプリの開発チームは、モデルが危険なプロンプトを拒否しつつ、判断をしない方法で応答し、必要に応じて助けを求めるよう促すルールを設定。
RBRモデルはこれらのルールに基づいて応答を評価し、人間主導の強化学習と同等の結果を得ることができます。
RBRの導入により、人間の評価者が直面する主観性の問題が軽減されるとWeng氏は説明します。
しかし、RBRが人間の監視を減少させ、モデルの偏見を増加させる可能性があるという倫理的な懸念が存在するのも事実です。
OpenAIは、公平性と正確性を確保するためにRBRと人間のフィードバックを組み合わせて使用することを推奨しています。
OpenAIはGPT-4の開発中にRBRの探求を開始し、現在もその手法を進化させ続けています。
同社は安全性への取り組みを強化しており、元研究者のJan Leike氏も安全文化とプロセスの重要性を訴えました。
参考記事:OpenAI
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。