OpenAI、新手法「RBR」でAIモデルの安全性向上へ

AI OpenAI 生成AI

2024-07-25

OpenAI RBR 安全性向上へ

OpenAIは、新しいAIモデルの教育手法「Rules Based Rewards (RBR)」を発表しました。この手法はモデルの微調整を自動化し、モデルが意図しない結果を出さないようにする時間を短縮するものです。

このNEWSをAIが簡単要約

OpenAIが新手法RBRを発表
RBRでモデル微調整を自動化
公平性と正確性の確保を推奨

安全システム責任者のLilian Weng氏は、「従来の人間のフィードバックによる強化学習では、ポリシーの微細な点に多くの時間を費やし、最終的にポリシーが進化してしまうことがある」と指摘しています。

RBRでは、安全およびポリシーチームが作成したルールに基づいてモデルの応答を評価します。

例えば、メンタルヘルスアプリの開発チームは、モデルが危険なプロンプトを拒否しつつ、判断をしない方法で応答し、必要に応じて助けを求めるよう促すルールを設定。

RBRモデルはこれらのルールに基づいて応答を評価し、人間主導の強化学習と同等の結果を得ることができます。

RBRの導入により、人間の評価者が直面する主観性の問題が軽減されるとWeng氏は説明します。

しかし、RBRが人間の監視を減少させ、モデルの偏見を増加させる可能性があるという倫理的な懸念が存在するのも事実です。

OpenAIは、公平性と正確性を確保するためにRBRと人間のフィードバックを組み合わせて使用することを推奨しています。

OpenAIはGPT-4の開発中にRBRの探求を開始し、現在もその手法を進化させ続けています。

同社は安全性への取り組みを強化しており、元研究者のJan Leike氏も安全文化とプロセスの重要性を訴えました。

参考記事：OpenAI

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

メルマガに登録する

資料をダウンロードする

AI OpenAI 生成AI

URLをコピーしました！

URLをコピーしました！

「日本一透明性の高いAIプロフェッショナル集団」
を目指して

私たちは、AIに関わるすべての人に向けて、透明性の高い適切な情報発信と開発を行います。
「WEELは、一番地に足ついたAI情報を教えてくれる」
と思っていただけるよう、透明性高い事業運営を行なって参ります。

私たちは、AIに関わるすべての人に向けて、
透明性の高い適切な情報発信と開発を行います。
「WEELは、
一番地に足ついたAI情報を教えてくれる」
と思っていただけるよう、
透明性高い事業運営を行なって参ります。

無料で相談してみる

会社紹介資料ダウンロード

通勤時間で読める

生成AIメールマガジンを読む