AdsPower
AdsPower

Redditをスクレイピングする2つの異なる効果的な方法

By AdsPower||1,241 Views

Reddit のユーザー生成データには計り知れない価値があることは言うまでもなく、Google と OpenAI は、Reddit を使用して大規模言語モデル (LLM) をトレーニングしています。

しかし、苦労して銀行口座を壊すことなく、Reddit をスクレイピングしてその価値を活用するにはどうすればよいでしょうか?

熟練したプログラマーであっても、プログラミングの複雑な世界を知らない人であっても、あなたにぴったりの方法があります。

このブログでは、2つの簡単な方法を使用してRedditをスクレイピングし、Redditが提供する豊富な情報を入手する方法を学びます。

しかし、Reddit をスクレイピングする方法の詳細に入る前に、Reddit をスクレイピングするさまざまな方法を簡単に説明しておきましょう。

Reddit をスクレイピングするさまざまな方法

人々はさまざまな方法で Reddit をスクレイピングします。それぞれの方法には長所と短所があります。

公園を散歩するのと同じくらい簡単で、技術的なスキルを必要としないものもありますが、他のものは難しく、中程度から高度なプログラミングのノウハウが必要です。

Reddit からデータをスクレイピングする方法について簡単にご紹介します。

Reddit を手動でスクレイピングする

これはおそらく、Reddit やその他のプラットフォームからデータをスクレイピングする最も簡単で直接的な方法です。専門知識は一切必要ありません。必要なのは、データをコピーしてスプレッドシートに貼り付ける能力だけです。

写真やプロフィール写真などのメディアはプラットフォームから簡単にダウンロードでき、ビデオはサードパーティのビデオダウンロードWebサイトを使用して抽出できます。

さらに、各データ ポイントをチェックして、正確で関連性のあるデータのみがスプレッドシートに含まれていることを確認できます。

ただし、プロセス全体が手動で行われるため、要件が大きい場合はかなりの時間がかかります。さらに、Reddit を手動でスクレイピングすると、人為的エラーが発生する可能性も高くなります。

Reddit の API を使用してスクレイピングする

Reddit は、開発者が Reddit プラットフォーム上でアプリやその他の製品を構築できるように API を提供しています。この API は Reddit からデータをスクレイピングするためにも使用できます。ただし、そのためには中程度のコーディング スキルが必要です。

また、API を使用するには Reddit によって設定されたその他の制限的なルールに従う必要があります。さらに、2023 Reddit 論争、API は有料で、モデレーション ツール開発者または学術目的でのみ無料で利用できます。

カスタム Reddit スクレイパーを構築する

次の選択肢は、カスタム Reddit スクレイパーをゼロから構築して、API を使用せずに Reddit をスクレイピングすることです。これにより、この方法は、高度なプログラミング スキルが必要なので難しいですが、実行できれば非常に有望です。

この方法では、スクレーパーをカスタマイズして、他の既製のスクレーパーでは抽出できないあらゆる種類のデータを抽出できます。抽出することはできません。さらに、スクリプトを記述して、ニーズに応じてスクレイピング タスクをスケールアップすることもできます。

しかし、カスタムの Reddit スクレイパーの開発は簡単ではなく、コストと時間がかかります。

コード不要の Reddit スクレイパーを使用する

コーディングの経験がありませんか? 問題ありません。プログラミングを必要としないクリック&スクレイピング ツールが多数あります。

これらのツールは、ユーザーフレンドリーなソフトウェアやブラウザ拡張機能の形で提供され、マウスを数回クリックするだけで、数分以内にRedditからデータを収集できます。

本当の明るい面は、これらのツールのほとんどに、多くの場合ほとんどのユーザーにとって十分な無料プランが用意されていることです。

コードとノーコードを使用してRedditからデータをスクレイピングする方法

さあ、これ以上面倒なことはせずに、早速ビジネスに取り掛かり、ノーコードRedditスクレーパーとPythonライブラリを使用してRedditをスクレイピングする方法を学びましょう。

Parsehub を使用して Reddit をスクレイピングする(コードなし)

Redditから手動でデータを取得すると、永遠にかかることがあります。投稿を探し、開き、読み込まれるのを待ってから手動でデータをコピーしてスプレッドシートに貼り付けることは可能ですが、特に何百もの投稿を処理する場合には、依然として逆効果です。

自動ウェブスクレイパーにこの作業を任せましょう。これらのツールを使用すると、ユーザー名、リンク、投稿タイトル、日付、画像、コメントなど、Reddit からほぼすべての種類のデータを自動的にスクレイピングできます。

主要なノーコード Reddit スクレイピング ツールには、ParseHub、Apify、Octoparse などがあります。

前述のとおり、ノーコード ツールを使用して Reddit をスクレイピングするのは簡単ですが、開始するにはガイダンスが必要です。

それでは、ParseHub を使用して Reddit をスクレイピングする方法を学びましょう。

  • ParseHub をダウンロード: 公式のParseHub ウェブサイトにアクセスし、お使いのオペレーティング システムに適したダウンロード オプションを選択してください。セットアップがダウンロードされます。セットアップを実行すると、数分以内に ParseHub がインストールされます。

  • アカウントの作成:ParseHub を初めて使用する場合は、サインアップしてアカウントを作成してください。プロセスは非常に迅速です。名前、メールアドレス、パスワードを入力するだけで、新しいアカウントにログインできます。

  • 新しいプロジェクトの開始: ホーム画面で、[新しいプロジェクト] ボタンをクリックします。

Redditをスクレイピングする2つの異なる効果的な方法

  • 新しい画面に、スクレイピングしたいサブレディットのリンクを貼り付けます。スクレイピングには Reddit の古いレイアウトが最適ですので、それを使用することをお勧めします。

  • デモのために NBA のサブレディットをスクレイピングします。

Redditをスクレイピングする2つの異なる効果的な方法

  • スタートボタンを押すと、subreddit がメイン画面に読み込まれます。

Redditをスクレイピングする2つの異なる効果的な方法

  • 関連データの選択:すべての投稿のタイトルとリンクをスクレイピングするとします。ページの最初の投稿のタイトルをクリックします。選択した投稿最初の投稿タイトルが緑色に変わり、他の投稿タイトルが黄色に変わります。次に 2 番目の投稿タイトルを選択すると、すべてのタイトルが緑色に変わり、すべて選択されたことが示されます。

Redditをスクレイピングする2つの異なる効果的な方法

  • サイド パネルで、選択した項目 (投稿など) に適切な名前を付けます。

Redditをスクレイピングする2つの異なる効果的な方法

  • さらに選択する:各投稿の日付も選択するとします。そのためには、投稿選択の「+」記号をクリックし、「相対選択」を選択します。

Redditをスクレイピングする2つの異なる効果的な方法

  • 最初の投稿のタイトルをクリックし、その後、投稿のタイムスタンプをクリックします。ページ全体が次のようになります。

Redditをスクレイピングする2つの異なる効果的な方法

  • 新しく作成した選択範囲の名前を date に変更します。

Redditをスクレイピングする2つの異なる効果的な方法

  • 日付を選択すると関連するタイムスタンプが抽出されますが、投稿の日付と時刻が必要です。そこで、日付選択の横にある「+」記号をクリックし、「詳細設定」をクリックしてフルメニューを開き、「抽出」を選択します。

Redditをスクレイピングする2つの異なる効果的な方法

  • 次のドロップダウンを開いて「タイトル属性」を抽出して選択します。

Redditをスクレイピングする2つの異なる効果的な方法

  • 選択範囲によって日付と時刻が引き出されていることがわかります。

Redditをスクレイピングする2つの異なる効果的な方法

  • その他のデータ タイプについては、この手順を繰り返します:ユーザー名、コメント数、賛成票については、前の手順を繰り返します。

Redditをスクレイピングする2つの異なる効果的な方法

  • ページ区切りを追加:これまでの選択範囲では、最初のページからのみデータが抽出されていました。次のページに移動するには、ページ選択範囲の「+」記号をクリックし、「選択」を選択します。

Redditをスクレイピングする2つの異なる効果的な方法

  • ページの一番下までスクロールして、「次へ」をクリックします。

Redditをスクレイピングする2つの異なる効果的な方法

  • 次の選択項目の「+」記号をクリックし、「クリック」を選択します。

Redditをスクレイピングする2つの異なる効果的な方法

  • これが次のページボタンかどうかを尋ねるポップアップが表示されます。[はい] を選択し、ページ数を入力します。 ;クリックする必要があります。2 ページ書いたので、合計で 3 ページをスクレイピングします。次に、[現在のテンプレートを繰り返す] ボタンを押します。

Redditをスクレイピングする2つの異なる効果的な方法

  • プロジェクトの準備が整いました。

Redditをスクレイピングする2つの異なる効果的な方法

  • プロジェクトを実行します: [データの取得] ボタンを押します。

Redditをスクレイピングする2つの異なる効果的な方法

  • 「実行」を選択します。数分以内に、データの準備が整います。必要なファイル形式を選択します。

Redditをスクレイピングする2つの異なる効果的な方法

Python で Reddit をスクレイピングする (コード)

ノーコードツールを使用してRedditをスクレイピングする方法を知っていると、同じタスクのためにプログラミングスクリプトを記述する人がいるのはなぜか疑問に思うでしょう。

答えは、この方法によって得られる自由の中にあります。

ノーコードRedditスクレーパーを使用すると、スクレーピングが許可されているデータタイプのみをスクレーピングできます。また、ページ制限や投稿制限など、その他の制限がある場合もあります。

プレミアムプランにアップグレードすることで、これらの制限を回避できる場合があります。しかし、財布に負担がかかりますし、スクレイピングの要件が複雑な場合は、Reddit のノーコード スクレイパーは役に立ちません。

ここで、Python またはその他のプログラミング言語を使用して Reddit をスクレイピングする必要があります。

PythonでRedditをスクレイピングすると、任意のデータや任意の数のページを抽出できるだけでなく、 1 ペニーも支払うことなくこれを行うことができます。これは、コーディングの知識がある場合に限ります。そうでない場合は、スクレイピングの専門家を雇う必要があります。

では、Python で Reddit をスクレイピングする方法を見てみましょう:

  1. 必要なライブラリのインストール: PRAW (Python Reddit API ラッパー) や Pandas などの必要なライブラリがインストールされていることを確認します。

  2. Reddit アプリを作成する:Reddit の Web サイトにアクセスし、新しいアプリケーションを作成します。クライアント ID、クライアント シークレット、ユーザー名、およびパスワードを取得します。

  3. 認証: 取得した認証情報を使用して、PRAW を使用した Reddit の API で認証します。

  4. Subreddit を選択: スクレイピングする subreddit を指定します。

  5. データのスクレイピング: PRAW を使用して、選択したサブレディットから投稿を取得します。つまり、投稿数と必要な属性を指定します。

  6. データの保存: スクレイピングしたデータを、Pandas を使用して DataFrame などの適切な形式で保存します。

  7. 分析または視覚化:プロジェクトまたは分析の必要に応じて、スクレイピングしたデータを分析または視覚化します。

各ステップを深く理解し、コード スニペットを入手するには、こちらの詳しいブログをご覧ください。

スクレイピング アクティビティがブロックされないように保護する

Reddit によると、ユーザー同意書に基づき、自動化を通じてサイトにアクセスしたり、事前の同意なしにRedditからデータをスクレイピングしたりすることは禁止されています。

ただし、IP 禁止やアカウント停止など、Reddit のスクレイピング防止策に関する情報はあまりありません。

これは、Reddit がスクレイピングに対して寛容な姿勢を示している可能性があります。しかし、スクレイパーが CAPTCHA、レート制限、または停止などの障害に遭遇する可能性は依然としてあります。

これがAdsPower アンチ検出ブラウザはこれを処理するように設計されています。AdsPower は、アンチフィンガープリンティング対策を通じてスクレイパーを実際のユーザーのように見えるようにし、シームレスにデータをスクレイピングできるようにします。

これで、コーディングの有無にかかわらず Reddit をスクレイピングする方法がわかりました。無料でサインアップして、AdsPower で役立つサブレディットを中断することなくスクレイピングしましょう。

AdsPower

あらゆる業界に最適なマルチログインブラウザ

Redditをスクレイピングする2つの異なる効果的な方法

他にも読む記事