ウェブサイトのスクレイピングがこれまでになく手軽になりました!
ChatGPTのプラグインの中でScraperというプラグインを見つけたので早速インストールして
使ってみました。
Scraperというプラグインは、スクレイピングしたいウェブサイトのURLと取得したいデータを指定するだけで利用できます。
全てのウェブサイトをスクレイピングできるわけではありませんが、YouTubeのような大手ウェブサイトであれば一つのプロンプトで簡単にスクレイピングすることができます。
以下に、その使い方を説明します。
Scraperのセットアップ
Scraperをセットアップするには、ChatGPT Plusに加入が必要です。
ChatGPT Plusに加入後、プラグインストアにアクセスし、「Scraper」と検索してインストールします。
左側に表示されているやつです。

Scraperを使ってYouTubeをスクレイピング
Scraperを使ってYouTubeをスクレイピングしてみました。
最初のテストでは、ヒカキンさんのYouTubeチャンネルのURLを提供し、ビデオのタイトル、視聴回数、公開日などのデータをスクレイピングしました。
以下が、使用したプロンプトになります。
このサイトに掲載されているビデオからタイトル、視聴回数、公開日をスクレイピングしてください:
こんな結果が返ってきました!

Scraperはページ上の最初の5項目しか取得しませんでした。
色々と試してみましたが、10項目取得したり5項目しか取得しなかったりよくわかりません。
追加での取得も試してみました。
以前提供したYouTubeのサイトからさらに10項目をスクレイピングできますか?

現状は制限がかかっていました。
すべてのスクレイピングした項目をテーブルに入れて、Excelに簡単にコピーペーストできるようにChatGPTに質問することもできます。
スクレイピングした10項目をテーブルに入れてもらえますか?

コードインタープリタプラグインが全員利用可能になれば、データをCSVファイルにエクスポートすることができるようですが、現時点では、このテーブルをCSVファイル貼り付ける方法が一番簡単な方法です。
コードインタープリターがリリースされました。機会があればまた記事にしたいと思います。
Scraperを使用してニュースウェブサイトをスクレイピング
このプラグインを使用してニュースウェブサイトもスクレイピングできます。YAHOO ニュースや様々なサイトをスクレイピングしてみました。
YAHOO ニュースに掲載されている記事から、見出しを抽出しました。
このサイトに掲載されているニュースから見出しをスクレイピングしてください:

問題なく取得できています。
Scraperで取得できないサイト
様々なサイトをスクレピングしていると、取得できないサイトを見つけました。
無限スクロールで記事を見ていくタイプのサイトです。
以下に、私が見つけたこのプラグインのデメリット:
利用規約でウェブスクレイピングに反対しているウェブサイトはスクレイピングしません
データを動的にロードするウェブサイトはスクレイピングしません
Seleniumのようなツールでできるクリック、スクロール、その他の操作を行いません
まとめ
Scraperは気軽にデータを取得するには良いプラグインですが、本格的データ収集には向いていません。
皆さんも興味があれば試してみてください。