Reddit、robots.txt更新でAIスクレイピング対策強化
Redditは最近、ウェブサイトへの自動ウェブボットのアクセスを管理するためのロボット排除プロトコル(robots.txtファイル)の更新を発表しました。これにより、AIによる無許可のデータスクレイピングに対する対策が強化されます。
- Redditがrobots.txtを更新しAI対策強化。
- 未確認ボットのレート制限とブロック。
- 正当ユーザーには影響が少ない措置。
従来、robots.txtファイルは検索エンジンがサイトをインデックス化し、ユーザーにコンテンツを提供するために利用されていました。
しかし、AIの普及に伴い、サイトが無断でスクレイピングされるケースが増加しています。
Redditは、これを防ぐために未確認のボットやクローラーを制限およびブロックする取り組みを強化する方針です。
TechCrunchによると、Redditはそのパブリックコンテンツポリシーに準拠しないボットや、正式な合意を欠くボットに対してレート制限やブロックを実施する予定です。
これにより、悪意のあるアクターの活動が主に影響を受けることになります。
一方、正当なユーザーである研究者やインターネットアーカイブのような団体には影響が少ないとしています。
この措置は、AI企業がRedditのコンテンツを利用して大規模な言語モデルをトレーニングするのを防ぐことを目的としていますが、一部のAIクローラーはrobots.txtの指示を無視する可能性があります。
最近のWiredの調査では、AI駆動の検索スタートアップPerplexityがRedditのコンテンツを不正にスクレイピングしていることが明らかにされました。
Perplexityは、robots.txtファイルでブロックされているにもかかわらず、これを無視しています。
ただし、Redditの更新はGoogleとの6000万ドルの契約のような既存の合意を持つ企業には影響を与えません。
Redditは、既存のポリシーを遵守し、ユーザーの利益を保護することを強調しています。
「私たちはコミュニティメンバーの利益を保護するために厳格なポリシーを施行しています」とRedditは述べ、責任あるアクセスを確保するための選択的なコラボレーションを強調しました。
参考記事:Reddit
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。