ウェブサイトスクレイピングが一瞬で!ChatGPTプラグインScraper

チャットGPTでスクレイピング
  • URLをコピーしました!

ウェブサイトのスクレイピングがこれまでになく手軽になりました!

ChatGPTのプラグインの中でScraperというプラグインを見つけたので早速インストールして

使ってみました。

Scraperというプラグインは、スクレイピングしたいウェブサイトのURLと取得したいデータを指定するだけで利用できます。

全てのウェブサイトをスクレイピングできるわけではありませんが、YouTubeのような大手ウェブサイトであれば一つのプロンプトで簡単にスクレイピングすることができます。

以下に、その使い方を説明します。

目次

Scraperのセットアップ

Scraperをセットアップするには、ChatGPT Plusに加入が必要です。

ChatGPT Plusに加入後、プラグインストアにアクセスし、「Scraper」と検索してインストールします。

左側に表示されているやつです。

検索するscraper

Scraperを使ってYouTubeをスクレイピング

Scraperを使ってYouTubeをスクレイピングしてみました。

最初のテストでは、ヒカキンさんのYouTubeチャンネルのURLを提供し、ビデオのタイトル、視聴回数、公開日などのデータをスクレイピングしました。

以下が、使用したプロンプトになります。

このサイトに掲載されているビデオからタイトル、視聴回数、公開日をスクレイピングしてください:

https://www.youtube.com/@HikakinTV

こんな結果が返ってきました!

hikakin再生数

Scraperはページ上の最初の5項目しか取得しませんでした。

色々と試してみましたが、10項目取得したり5項目しか取得しなかったりよくわかりません。

追加での取得も試してみました。

以前提供したYouTubeのサイトからさらに10項目をスクレイピングできますか?

追加の質問

現状は制限がかかっていました。

すべてのスクレイピングした項目をテーブルに入れて、Excelに簡単にコピーペーストできるようにChatGPTに質問することもできます。

スクレイピングした10項目をテーブルに入れてもらえますか?

テーブルにしてエクスポート

コードインタープリタプラグインが全員利用可能になれば、データをCSVファイルにエクスポートすることができるようですが、現時点では、このテーブルをCSVファイル貼り付ける方法が一番簡単な方法です。

コードインタープリターがリリースされました。機会があればまた記事にしたいと思います。

Scraperを使用してニュースウェブサイトをスクレイピング

このプラグインを使用してニュースウェブサイトもスクレイピングできます。YAHOO ニュースや様々なサイトをスクレイピングしてみました。

YAHOO ニュースに掲載されている記事から、見出しを抽出しました。

このサイトに掲載されているニュースから見出しをスクレイピングしてください:

Yahoo!ニュース
Yahoo!ニュース Yahoo!ニュースは、新聞・通信社が配信するニュースのほか、映像、雑誌や個人の書き手が執筆する記事など多種多様なニュースを掲載しています。

問題なく取得できています。

Scraperで取得できないサイト

様々なサイトをスクレピングしていると、取得できないサイトを見つけました。

無限スクロールで記事を見ていくタイプのサイトです。

以下に、私が見つけたこのプラグインのデメリット:

利用規約でウェブスクレイピングに反対しているウェブサイトはスクレイピングしません

データを動的にロードするウェブサイトはスクレイピングしません

Seleniumのようなツールでできるクリック、スクロール、その他の操作を行いません

まとめ

Scraperは気軽にデータを取得するには良いプラグインですが、本格的データ収集には向いていません。

皆さんも興味があれば試してみてください。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次