【悪用厳禁ChatGPTプラグイン】他社サイトをスクレイピングできる「Scraper」の導入方法から使い方
今回は、Webサイトから情報をスクレイピングできる、ChatGPTプラグイン「Scraper」を紹介します。スクレイピングとは、Webサイトから情報を自動的に取得する技術のことを指します。手動で情報を集める手間が省け、大量のデータを効率的に処理することが可能です。
例えば、下記の様なことができます。
- 特定した商品の価格情報を複数のECサイトから一括で取得
- ニュースサイトの最新記事を自動的に取得
この技術は、市場調査や競合分析、ニュースのトレンド分析など、ビジネスの様々な場面で活用されています。「Scraper」プラグインは、プログラミング知識がなくても、スクレイピング作業をChatGPTの簡単なプロンプトで行うことが可能です。
スクレイピングは情報収集の効率化を実現し、ビジネスの競争力を高めるための強力なツールとなります!あなたも「Scraper」プラグインを使って、情報収集の新たな可能性を探ってみませんか?以下にその導入方法から使い方までを説明します。ぜひ最後までご覧くださいっ!
ChatGPTのプラグイン機能は2024年4月9日で終了となりましたので、プラグイン以外でスクレイピングする方法もあわせてご紹介しています。
ChatGPTプラグイン「Scraper」の導入方法
ChatGPTのプラグインをインストールするためには、有料のChatGPT Plusのユーザーである必要があります。
導入する手順は次の2ステップです。
- プラグインストアで「Scraper」と検索
- 「Scraper」プラグインをインストール
さあ、このプラグインでいくつかの有名なサイトをスクレイピングしてみましょう!
ChatGPTプラグイン「Scraper」でスクレイピングしてみた
ここでは、ChatGPTプラグイン「Scraper」を使ってYoutube、Wikipedia、自社メディアのWebページの情報をスクレイピングしてみました。ご覧ください!
YouTubeをスクレイピング
最初のテストでは、YouTubeチャンネルから、動画のタイトル、視聴数、公開日などのデータを抽出します。今回は、ビジネス映像メディア「PIVOT」のYouTubeチャンネルを利用させて頂きました。
では、さっそく始めていきます。最初に、動画一覧ページの公開タイトル、視聴数、公開日をスクレイピングします。
プロンプト:
以下のWebサイトに掲載されているビデオの公開タイトル、視聴数、公開日を抽出してください。
https://www.youtube.com/@pivot8935/videos
結果:
簡単なプロンプトだけでここまで正確に情報を抽出してくれるのは驚きです!
ですが、最初の5件までしか表示されなかったので、さらに追加してもらうように指示を出してみました。
プロンプト:
以前提供したYouTubeのウェブサイトからさらに5項目をスクレイピングしてください。
結果:
指示通りに追加してくれましたね!
最後に、スクレイピングしてもらった全ての情報を表にまとめます。
プロンプト:
スクレイピングした10項目を表にまとめてもらえますか?
結果:
綺麗にまとめてくれましたね!
スクレイピングしたデータを表にすることで、ExcelやGooglesheetでコピー&ペーストして使うことができます。
Wikipediaをスクレイピング
次に、Wikipediaをスクレイピングしてみます。情報は Wikipediaの最近の出来事 から、取得してもらおうと思います。
最初に、ヘッドラインの情報をスクレイピングします。
プロンプト:
以下のWebサイトに掲載されているヘッドラインを抽出してください。
https://ja.wikipedia.org/wiki/Portal:%E6%9C%80%E8%BF%91%E3%81%AE%E5%87%BA%E6%9D%A5%E4%BA%8B
結果:
ヘッドラインの情報だけを、問題なく抽出できていますね!
次に、特定の期間だけのデータを抽出します。
プロンプト:
以下のWebサイトに掲載されている2024年3月の情報を抽出してください。
https://ja.wikipedia.org/wiki/Portal:%E6%9C%80%E8%BF%91%E3%81%AE%E5%87%BA%E6%9D%A5%E4%BA%8B
結果:
指示だけでここまで正確にスクレイピングできるのは凄いと思います。
Webページをスクレイピング
最後に自社メディアをスクレイピングしてみます!まず、記事一覧のタイトルと公開日を取得します。
プロンプト:
以下のWebサイトに掲載されている記事のタイトルおよび公開日を抽出してください。
https://weel.co.jp/
結果:
ページに掲載されている、全ての記事を取得できました。
個別ページでも試してみます。今回は、弊社メディアの「Code Interpreter」の記事から特定の見出しの本文を取得するという操作を行います。
以下の画像は、その「Code Interpreter」の記事の一部を示しています。この記事の見出しでは、ChatGPT上でPythonプログラムを実行する方法について詳しく説明されています。
プロンプト:
以下のWebサイトに掲載されている見出し「ChatGPT上でのPythonプログラムの実行」の本文を抽出してください。
<a href="https://weel.co.jp/2023/07/11/%e3%80%90code-interpreter%e3%80%91%e8%aa%b0%e3%81%a7%e3%82%82ai%e3%82%a8%e3%83%b3%e3%82%b8%e3%83%8b%e3%82%a2%e3%81%ab%e3%81%aa%e3%82%8c%e3%82%8b%ef%bc%81chatgpt%e5%85%ac%e5%bc%8f%e3%83%97%e3%83%a9/" class="ek-link">https://weel.co.jp/2023/07/11/%e3%80%90code-interpreter%e3%80%91%e8%aa%b0%e3%81%a7%e3%82%82ai%e3%82%a8%e3%83%b3%e3%82%b8%e3%83%8b%e3%82%a2%e3%81%ab%e3%81%aa%e3%82%8c%e3%82%8b%ef%bc%81chatgpt%e5%85%ac%e5%bc%8f%e3%83%97%e3%83%a9/</a>
結果:
特定の見出し(ChatGPT上でのPythonプログラムの実行)の本文のみ抽出してくれました。プログラムコードも、きちんと判別してくれていて見やすいですね!
なお、リアルタイムの情報にアクセスできるWebPilotについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
プラグイン以外でスクレイピングする方法
ChatGPTのプラグイン機能は2024年4月9日をもって終了してしまいましたので、プラグイン以外でスクレイピングする方法をお伝えします。
今回ご紹介するのは、Chromeの拡張機能「ExtractGPT」を使う方法と、対話型AIにスクレイピング用のコードを生成してもらう方法の2つです。
ExtracrtGPTを使う
ExtracrtGPTは、webサイト情報を自動で抽出してくれるAIツールで、欲しい情報を入力するだけでどのようなwebサイトでも自動で情報を取得し表にまとめてくれます。
データ抽出の精度も高く、抽出した情報をまとめた表のコピーやcsvファイルへの書き出しも行うことができます。日本語のサイトにも対応しているため幅広く利用することが可能です。
以下のCrome web storeからインストールできます。
ただし、ExtracrtGPTを使うためにはOpenAIのAPIキーを取得する必要があります。
APIの利用は、使用するトークン数に応じて料金が発生する従量課金制です。入力・出力トークンの両方に料金が発生するので、注意してください。
対話型AIにスクレイピングコードを生成してもらう
ChatGPTなどのチャットボットにプロンプトを入力して、スクレイピング用のコード(Phyton)を生成してもらう方法もあります。今回は、弊社のウェブサイトに一覧表示されている各記事のタイトルを抽出できるか試してみました。
使用したプロンプトはこちらです。
ChatGPT(GPT-4)、Claude3、Perplexityの3つのチャットボットで試しましたが、このプロンプトで正確なコードを生成できたのはPerplexityのみでした。
以下がPerplexitygaが生成してくれたコード(Phyton)です。
このコードを実際にGoogle Colaboratoryで実行してみると、全てのタイトルの取得に成功していました。
今回は1発で正しいコードを生成できたPerplexityのみご紹介しましたが、他のチャットボットもプロンプト内容を少し変えるだけで正しいコードを生成することは可能です。
なお、ChatGPT APIにおけるPhytonの活用事例について詳しく知りたい方は、下記の記事をあわせてご確認ください。
ChatGPTプラグイン「Scraper」は現在では機能終了
今回は、Webサイトから情報をスクレイピングできるChatGPTプラグイン「Scraper」について紹介しました。
ChatGPTプラグインは、有料プランのChatGPT Plusに加入しているユーザーのみ利用できます。
導入する手順は次の2ステップです。
- プラグインストアで「Scraper」と検索
- 「Scraper」プラグインをインストール
Scraperプラグインは、簡単な指示だけでYouTube、Wikipedia、Webページなど、さまざまな媒体の情報を簡単に抽出することが可能です。
このプラグインを利用することで、データを抽出する手間が大幅に省かれ、作業が効率的になります。
なお、ChatGPTのプラグイン機能2024年4月9日で終了となりましたので、ご注意ください。
プラグイン以外でスクレイピングする方法は以下の2通りです。
- Chromeの拡張機能「ExtractGPT」を使う
- 対話型AIにスクレイピング用のコードを生成してもらう
ぜひ試してみてくださいね。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。