logo
empty

Aqui estão duas maneiras diferentes, porém eficazes, de realizar scraping no Reddit

2024/02/29 14:06:33Autor: AdsPowerLeitores: 303

É óbvio que os dados gerados pelos usuários do Reddit têm um valor imenso, tanto que o Google e o OpenAI os usam para treinar seus Modelos de Linguagem Grande (LLMs, na sigla em inglês).

Mas como raspar o Reddit e aproveitar seu valor sem suar a camisa e sem gastar muito?

Seja você um codificador experiente ou alguém que não conhece o mundo complexo da programação, existe um método feito sob medida para você.

Neste blog, você aprenderá como raspar o Reddit usando duas maneiras fáceis e obter a riqueza de informações que o Reddit tem a oferecer.

Mas antes de entrar no cerne da questão de como raspar o Reddit, vamos dar uma rápida olhada nas diferentes maneiras de fazer isso.

Diferentes maneiras de raspar o Reddit

As pessoas raspam o Reddit de várias maneiras. Cada um desses métodos tem seus prós e contras.

Alguns deles são tão fáceis quanto um passeio no parque, não exigindo nenhuma habilidade técnica, enquanto outros são difíceis e requerem conhecimento de programação moderado a alto.

Vamos apresentar brevemente cada uma das maneiras de raspar dados do Reddit.

Raspar o Reddit manualmente

Esta é possivelmente a abordagem mais fácil e direta para raspar o Reddit ou qualquer outra plataforma. Não requer nenhum tipo de especialização, apenas a capacidade de copiar e colar dados em uma planilha.

As mídias, como fotos e imagens de perfil, podem ser facilmente baixadas da plataforma, enquanto os vídeos podem ser extraídos usando sites de download de terceiros.

Além disso, você poderá verificar cada ponto de dados e garantir que apenas dados corretos e relevantes cheguem à planilha.

No entanto, como todo o processo é manual, levará muito tempo se suas necessidades forem grandes. Além disso, a raspagem manual do Reddit também aumenta as chances de erros humanos.

Raspar o Reddit usando sua API

O Reddit fornece sua API para permitir que os desenvolvedores criem aplicativos e outros produtos em torno da plataforma. Você também pode usar esta API para raspar dados do Reddit. Mas para fazer isso, você deve ter habilidades moderadas de codificação..

Além disso, existem outras regras restritivas definidas pelo Reddit que você deve seguir para usar a API. Além disso, após a Controvérsia do Reddit de 2023, a API passou a ter um custo e só permanece gratuita para desenvolvedores de ferramentas de moderação ou para fins acadêmicos.

Crie um scraper personalizado do Reddit

Sua próxima opção é raspar o Reddit sem API, construindo um scraper personalizado do zero. Este método é difícil, pois requer habilidades avançadas de programação, mas é altamente promissor se você conseguir realizá-lo.

Ele permite que você personalize o scraper para extrair qualquer tipo de dado que outros scrapers prontos possam não conseguir. Além disso, você pode escrever scripts para escalonar as tarefas de raspagem de acordo com suas necessidades.

No entanto, desenvolver um scraper personalizado do Reddit não é uma tarefa fácil, sendo dispendioso e demorado.

Use um scraper do Reddit sem código

Não tem conhecimento de programação? Sem problemas. Existem várias ferramentas de clique e raspagem que não requerem programação.

Essas ferramentas vêm na forma de software amigável ou extensões de navegador e permitem que você raspe dados do Reddit em questão de minutos, com apenas alguns cliques do mouse.

O lado positivo é que a maioria dessas ferramentas possui um plano gratuito que geralmente atende à maioria dos usuários.

Como raspar dados do Reddit usando código e sem código?

Chega de enrolação, vamos direto ao assunto e descobrir como raspar dados do Reddit utilizando um scraper sem código e uma biblioteca Python.

Raspe o Reddit usando o ParseHub (Sem código)

Raspar dados manualmente do Reddit pode levar uma eternidade. Encontrar posts, abri-los, esperar o carregamento e, em seguida, copiar e colar manualmente os dados em uma planilha é possível, mas improdutivo, especialmente quando se trata de centenas de posts.

Deixe que raspadores web automáticos façam esse trabalho por você. Essas ferramentas permitem raspar automaticamente quase todos os tipos de dados do Reddit, incluindo nomes de usuário, links, títulos de posts, datas, imagens e comentários, entre outros.

Algumas das principais ferramentas sem código para raspar o Reddit incluem ParseHub, Apify e Octoparse.

Como dito anteriormente, raspar o Reddit usando uma ferramenta sem código é moleza, mas você precisa de alguma orientação para começar.

Então, vamos aprender como raspar o Reddit usando o ParseHub.

  • Baixe o ParseHub: Acesse o site oficial do ParseHub e escolha a opção de download apropriada para o seu sistema operacional. A instalação será baixada. Execute a instalação e o ParseHub será instalado em alguns minutos.
  • Crie uma conta: Se você estiver usando o ParseHub pela primeira vez, precisará se registrar e criar uma conta. O processo é super rápido. Basta digitar seu nome, e-mail e senha, e você estará conectado à sua nova conta.
  • Inicie um novo projeto: Na tela inicial, clique no botão "Novo Projeto".



  • Na nova tela, cole o link do subreddit que você deseja raspar. Recomendamos que você use o layout antigo do Reddit, pois funciona melhor para fins de raspagem.
  • Como demonstração, estaremos raspando o subreddit da NBA.



  • Pressione o botão Iniciar e o subreddit será carregado na tela principal.



  • Selecione os dados relevantes: Digamos que desejamos extrair os títulos e links de todas as postagens. Clique no título da primeira postagem da página. O título da postagem selecionada ficará verde e os outros títulos ficarão amarelos. Agora selecione o título da segunda postagem, e todos os títulos ficarão verdes, indicando que todos foram selecionados.



  • No painel lateral, dê um nome apropriado à seleção, por exemplo, 'posts'.



  • Faça mais seleções: Suponhamos que também queremos a data de cada postagem. Para isso, clique no símbolo "+" na seleção "posts" e escolha "Relative Select".



  • Agora clique no título da primeira postagem e, em seguida, clique no carimbo de data e hora da postagem. A página inteira ficará parecendo assim.



  • Renomeie a seleção recém-criada para 'data' (ou 'data de publicação').



  • A seleção de data extrai o carimbo de data e hora relevante, mas queremos a data e a hora da postagem. Portanto, clique no símbolo "+" ao lado da seleção de data, clique em "Avançado" para abrir o menu completo e selecione "Extrair".



  • Abra a lista suspensa ao lado de "Extrair" e selecione "Atributo do título".



  • Você verá que a seleção agora está extraindo as datas e horas.



  • Repita para Mais Tipos de Dados: Repita o passo anterior para nomes de usuário, contagem de comentários e votos positivos.



  • Adicione paginação: As seleções feitas até agora extraem apenas os dados da primeira página. Para passar para as próximas páginas, clique no símbolo "+" da seleção de página e escolha "Selecionar".



  • Vá até o final da página e clique em "próximo".



  • Clique no símbolo "+" na próxima seleção e escolha "Click".



  • Um pop-up aparece perguntando se este é o botão para a próxima página. Selecione "Sim" e insira o número de páginas que ele deve clicar. Digitamos 2, então no total, vamos raspar 3 páginas. Agora pressione o botão "Repetir modelo atual".



  • O projeto está pronto.



  • Execute o projeto: Pressione o botão 'Obter dados'.



  • Execute: Selecione 'Executar'. Em alguns minutos, os dados estarão prontos. Escolha o formato de arquivo desejado.



Raspagem do Reddit com Python (Código)

Agora que você sabe como raspar o Reddit usando uma ferramenta sem código, pode se perguntar por que as pessoas recorrem à escrita de scripts de programação para a mesma tarefa.

A resposta está na liberdade que vem com este método.

Ao usar um scraper sem código do Reddit, você só pode extrair os tipos de dados que ele permite. Também pode haver outras limitações, como limites de páginas ou de postagens.

Você pode contornar essas limitações atualizando para o plano premium. Mas isso pode pesar no seu bolso e, além disso, se seus requisitos de raspagem forem complexos, os raspadores sem código do Reddit não podem ajudar.

É nesse momento que você precisará recorrer à raspagem do Reddit com Python ou outras linguagens de programação.

Ao raspar o Reddit com Python, você não só poderá extrair qualquer dado e qualquer número de páginas, mas também o fará sem pagar um único centavo. Isso, é claro, se você souber programar. Caso contrário, será necessário contratar um especialista em raspagem.

Então, vamos ver como raspar o Reddit com Python:

  1. Instale as bibliotecas necessárias: Certifique-se de ter instalado as bibliotecas necessárias, como PRAW (Python Reddit API Wrapper) e Pandas.
  2. Crie um aplicativo Reddit: Acesse o site do Reddit e crie um novo aplicativo. Obtenha o ID do cliente, segredo do cliente, nome de usuário e senha.
  3. Autentique: Use as credenciais obtidas para se autenticar com a API do Reddit usando PRAW.
  4. Escolha o subreddit: Especifique o subreddit que deseja raspar.
  5. Raspe os dados: Use PRAW para recuperar postagens do subreddit escolhido, ou seja, especifique o número de postagens e os atributos desejados.
  6. Armazene os dados: Armazene os dados raspados em um formato adequado, como um DataFrame usando o Pandas.
  7. Analise ou visualize: Análise ou visualize os dados raspados conforme necessário para seu projeto ou análise.

Para uma compreensão mais profunda e trechos de código para cada etapa, consulte este blog detalhado.

Proteja Sua Atividade de Scraping de Ser Bloqueada

De acordo com o acordo de usuário do Reddit, acessar o site por meio de automação e fazer scraping de dados do Reddit sem consentimento prévio é proibido.

No entanto, não há muitas informações sobre as medidas preventivas do Reddit contra o scraping, como banimentos de IP ou suspensões de conta.

Isso pode indicar uma atitude leniente do Reddit em relação ao scraping. Mas ainda existem chances de que seu scraper encontre obstáculos como CAPTCHA, limites de taxa ou suspensões.

É para lidar com isso que o
navegador anti-detect AdsPower foi criado. O AdsPower faz com que seus scrapers pareçam usuários reais por meio de medidas anti-impressão digital, para que você possa fazer scraping de dados sem problemas.

Agora que você sabe como fazer scraping no Reddit com e sem programação,
cadastre-se gratuitamente no AdsPower e faça scraping de subreddits úteis sem interrupções.

Comentários
0/50
0/300
Comentários populares
no_comment

Nada aqui... Deixe o primeiro comentário!