【情報を守れ】OpenAIのGPTBotとは?情報漏洩を防ぐ方法
8/7、ChatGPTの開発会社であるOpenAIが、GPTBotというOpenAIのWebクローラーについて明らかにしました。
GPTBotが自社サイトをクローリングしないように設定すると、サイト内のデータがChatGPTの学習に使われなくなるとのことです。
今回の記事では、GPTBotとは何か、その使い方を解説し、最後はOpenAIのデータ利用ポリシーについて説明します。
OpenAIのGPTBotとは
今回、OpenAIがGPTBotについて明らかにした記事はこちらです。
記事の内容をそのまま引用すると、「GPTBot is OpenAI’s web crawler and can be identified by the following user agent and string.=GPTBotとは、OpenAIのウェブクローラーで、以下のユーザーエージェントと文字列を入力することで識別できます。」とのこと。
つまり、OpenAIは、GPTBotをWebページ上のサイト内コンテンツにクローリングさせることによって、現在のGPT3.5やGPT4を学習させていたということです。
クローリングとは、ウェブページの情報やデータを自動的に収集することを指します。Googleを例に出してみましょう。
Googleで「ChatGPT リスク」と検索すると、弊社の記事が一番上に出てきます。
この検索した時の記事の順位はどのように決まっているのでしょうか?
Googleの目的は読者が検索したキーワードに対して、ぴったりな記事を出すことです。キーワードに最適な記事を出すには、記事の内容がどんなものか知る必要があります。
では、どのようにしてGoogle上にある膨大な記事の内容を確認するのでしょうか?。ここで、「クローリング」が登場します。
Googleはクローリングをして、記事の情報を取得することで、記事内容を把握します。そして、読者が検索したキーワードに対して適切な記事を表示させているのです。
OpenAIのGPTBotが行っていることも同様です。
OpenAIが開発したChatGPTは、人間の質問に対して限りなく自然で適切な回答をすることを目的としています。
そのためには、大量のデータを使って学習する必要があります。そこで、GPTBotを使ってWeb上のコンテンツをクローリングさせ、データを取得しています。
しかし、ChatGPTに自社サイトのコンテンツを学習してほしくない!という人もいるでしょう。次の章では、GPTBotに自社サイトをクローリングさせない方法を紹介します。
また、ChatGPTを利用する際のリスクと注意点について知りたい方はこちらからご覧いただけます。
→ChatGPTを企業利用するリスクと対策5選|実際の企業事例と共に解説
OpenAIのGPTBotに自社サイトをクローリングさせない方法
OpenAIの記事で自社サイトをクローリングさせない方法が紹介されていました。
GPTBotのクローリングを禁止させるには、サイトのrobots.txtファイルに以下のコードを入力してください。
User-agent: GPTBot
Disallow: //自社サイトのURL
また、自社サイトの全コンテンツとまではいかないものの、一部のコンテンツをクロールしてほしくない場合は、以下のコードをサイトのrobots.txtファイルに入力してください。
User-agent: GPTBot
Allow: //GPTBotがクロールしても大丈夫なリンクを入れる
Disallow: //GPTBotにクロールして欲しくないリンクを入れる
WordPressでrobots.txtファイルの場所を知りたい方は以下の記事がとても参考になりますので、ご覧ください。
→WordPress「robots.txt」の設定例と作成方法
ChatGPTのデータ利用
企業の担当者の方など、重要な情報を扱う立場にある方は、OpenAIがどのように我々のデータを利用しているか知る必要があるでしょう。
OpenAIはWebサイトのクローリング以外にも、ChatGPTに入力された情報も学習に使用しています。
それは、以下のOpenAI公式のブログで明かされています。
そのため、ChatGPTに入力した情報は基本的には全て情報漏洩の可能性があると考えた方が良いです。
ChatGPTで情報漏洩を防ぐ方法
しかし、情報漏洩を気にしていたらChatGPTを業務に活用することができません。
そのため、OpenAIはChatGPTに入力された情報を学習に使わないようにする3つの方法を用意しています。
以下の3つです。
- ChatGPTの設定で「training」をオフにする
- オプトアウトの手続きをする
- APIを利用する
ChatGPTの設定で「training」をオフにする
ChatGPTの設定から「Data controls」に行くと、「Chat history & training」の表示があるのでこれをオフにしてください。
そうすると、チャットの履歴が残らなくなり、ChatGPTの学習にデータが使われなくなります。
オプトアウトの手続きをする
OpenAIはユーザーのためにオプトアウトの制度を用意しています。
こちらから「User Content Opt Out Request」AIの学習に使用させないというリクエストが送られます。
このフォームを提出すると、提出してからの新しい会話はAIの学習に使用されなくなります。
APIを利用する
OpenAIはAPIを経由して生成されたデータについては、AIの学習に使用しないとしています。
仮に、情報をAI学習に使用しても良いよという方がいれば、こちらの「OpenAI Data Sharing Opt In」というフォームから手続きが可能です。
上記の方法で、ChatGPTに個人情報や機密情報を入力しても、情報漏洩のリスクがなくなります。
ぜひ、お試しください。
また、ChatGPTの企業利用のリスクやその対策については、こちらの記事にまとめています。
→ChatGPTを企業利用するリスクと対策5選|実際の企業事例と共に解説
OpenAIのGPTBotはWeb上の情報をChatGPTに学習するためのシステム
今回の記事の内容をまとめます。
OpenAIはGPTBotと呼ばれるウェブクローラーを使ってWeb上のコンテンツを収集し、GPTモデルの学習に利用している。
自社サイトをクロールさせたくない場合は、robots.txtファイルにGPTBotのクロールを禁止する設定をする。
また、ChatGPTに入力した内容も学習に使われるため、トレーニング機能をオフにしたり、オプトアウトをしたりすることで情報漏洩を防ぐことができる。ChatGPTの企業利用にはリスクがあるため、対策をしっかり行う必要がある。
生成AIのリスクと対策について知りたい方はこちらをご覧ください。
→生成AIの企業利用・開発のリスクとその対策を解説!開発失敗事例も紹介
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。