AdsPower
AdsPower

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

By AdsPower||10,472 Views

Web scraping Amazon maaaring maging lubos kapaki-pakinabang para sa busi nesses kung tapos matalino. Huwag’t maniwala sa amin? Isaalang-alang ito kuwento ng a website na ginawa isang nakalaglag ang panga $800k sa loob ng dalawa lang buwan habang lahat sila ay nag-scrape mga review Amazon araw-araw. Cool, huh?

Hindi namin maipapangako na kikita ka ng isang toneladang pera sa magdamag, ngunit maaari naming ituro sa iyo kung paano mag-scrape ng Amazon upang subukang makarating doon.

Kaya basahin ang blog na ito upang matutunan ang dalawang paraan sa pag-scrape ng Amazon: ang isa ay gumagamit ng isang walang code na Amazon Scraper at isa pa kung saan kami ay gumagawa ng isang Amazon na Scraper na code at isa pa kung saan kami ay gumagawa ng Amazon na Scraper

Ngunit una, alamin muna natin kung okay lang na mag-scrape ng Amazon.

Ito ba ay Legal Para Scrape Amazon?

Pagdating sa pag-scrap sa Amazon, medyo malabo ang mga panuntunan. Amazon's robots.txt file delineates pinahihintulutang scraping parameter sa isang mahabang list na tumutukoy ano ang nawawakas at kung saan mga lugar mahigpit ipinagbabawal.

Gayunpaman, ang robots.txt file ay nagsisilbi lamang bilang isang etikal na patnubay at hindi legal na may bisa. Kaya, maaaring ma-access ng iyong Amazon Scraper ang mga lugar na hindi limitado nang hindi kinakailangang nahaharap sa anumang mga isyu.

Gayunpaman, hindi humihinto ang Amazon dito. Ito ay higit pa sa pamamagitan ng pagpapatupad ng mga teknikal na hadlang upang pigilan ang mga bot na ma-overload ang mga server nito.

Halimbawa, gumagamit ito ng mga hakbang na anti-scraping tulad ng mga pagsubok sa CAPTCHA at paglilimita sa rate. Upang malampasan ang mga hadlang na ito, ang iyong Amazon scraper ay dapat magkaroon ng
advanced techniques like user agent spoofing, CAPTCHA solving, o pagpapaliban mga kahilingan; kung hindi man, iyong Amazon pagsisikap mananatili apan a a Amazon ="scraping mananatiling >Samakatuwid upang maikling sagutin “Pinapayagan ba ng Amazon ang pag-scrape ng web?


Bilang matagal bilang pag-scrape ay hindi kasangkot hindi awtorisado access, hal., data sa likod ng a login, o mapuspos ang&n bsp;imprastraktura ng site, ito karaniwang nahuhulog sa loob sa ligtas kategorya. Ang Kataas-taasang Korte defended din class="forecolor" style="color: #1e4dff;">
a Data Analytics firm na ay idemanda ng LinkedIn under CFAA, citing hindi awtorisadong web scraping.

Higit pa rito, dapat mo ring tiyakin na ang iyong paggamit ng na-scrap na data ay legal, o hindi mo ito muling ire-replika. repercussions.

Ngayon ang milyon-dollar na tanong, paano i-scrape ang Amazon?

Paano Mag-scrape Amazon?

Sa kabila ng mga teknikal na hamon, madaling i-scrape ang Amazon. Maraming code at no-code na tool sa pag-scrape ng Amazon na may mga solusyon para sa pagharap sa mga hakbang na anti-bot ng Amazon. Madali mong masisira ang mga review, produkto, at presyo ng Amazon sa iba pang data gamit ang mga tool na ito.

Kaya't magsimula muna tayo sa walang code na Amazon Scraper.

No-Code Amazon Scraper:

Maging tapat tayo, mataas ang na ang ;kasalukuyang nagbabasa nagbabasa ito ay walang coding kasanayan. Ngunit iyon’walang isyu. hindi mo hindi kailangan coding& nbsp;kaalaman kapag no-code Amazon Scraper ay magagamit.

Gamit ang mga tool na ito, ibibigay mo lang ang mga URL ng pahina ng produkto o kategorya at makukuha ka ng scraper ng lahat ng data ng produkto ng Amazon mula sa pahinang iyon. Kapag tapos na ang mga ito sa web scraping Amazon, binibigyan ka rin ng maraming opsyon sa pag-save ng file.

Pinili namin ang Amazon Scraper ng Apify para sa demo na ito. Ang Apify ay may hiwalay na mga tool para sa pag-scrap ng iba't ibang bahagi ng Amazon kabilang ang Amazon Product Scraper, Amazon Review Scraper, at Amazon Bestsellers Scraper.

Sa gabay na ito, gagamitin namin ang Amazon Product Scraper ng Apify. Ang Amazon Product Scraper ay may mga feature para lutasin ang mga CAPTCHA at magtakda ng mga proxy para makatulong sa pag-iwas sa mga anti-bot na hakbang.

Kaya simulan na natin ang demo.

Hakbang 1: Bisitahin ang Amazon Product Scraper Page

I-access ang Amazon Product Scraper sa ang Apify Store at hit ang ‘Subukan para sa Libre’ button. p;scrape Amazon data kabilang ang mga presyo, review, mga paglalarawan produkto, mga larawan, at ilang higit pang />
Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper width=""> lapad />
>Hakbang 2: Gumawa ng Iyong Apify Account

Kung bago ka, mag-sign up para sa isang Apify account nang libre. Nag-aalok ang platform ng mga opsyon sa pag-sign-up sa pamamagitan ng email, Google, o GitHub.

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Hakbang 3: I-paste ang Mga URL ng Amazon ng Target na Nilalaman

Sa Apify Console, ipasok ang URL ng produkto o kategorya ng Amazon na gusto mong i-scrape. Ginamit namin ang Video Game Consoles & Accessories at ang Muwebles kategorya sa itong halimbawa.

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Gayundin, magpasya sa maximum na bilang ng mga item na nilalayon mong simutin sa pamamagitan ng pagtatakda ng limitasyon sa field na 'Max item'. Itinakda namin ito sa 15 ngunit maaari mo itong itakda hangga't gusto mo.

Hakbang 4: Paganahin ang CAPTCHA Solver

Hindi mo ma-scrape ang Amazon nang walang CAPTCHA solver. Ang Amazon ay kilala na napakahusay sa pag-detect ng mga bot. Sa sandaling pinaghihinalaan nito ang aktibidad ng bot, naghagis ito ng CAPTCHA sa bot.

Kaya para matiyak na ang iyong Amazon Scraper ay gumagana nang walang problema, paganahin ang paglutas ng CAPTCHA.

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Hakbang 5: I-configure ang Proxy

Ang paggamit ng proxy ay mahalaga para sa pag-bypass ng mga hakbang laban sa pag-scrape. Ang Amazon scraper ay nag-aalok ng iba't ibang mga opsyon sa proxy, kabilang ang Residential, Datacenter, o sa iyo, upang i-mask ang mga aktibidad sa pag-scrape at mag-navigate sa paligid ng mga paghihigpit. Basahin ang tungkol sa mga pagkakaiba sa pagitan ng Residential at Datacenter proxies sa aming iba pang pan>
type ng data residential proxy option ay pinili bilang default dahil ito ang pinakamahusay para sa mga anti-scraping system.

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Hakbang 6: Ilunsad ang Scraper

Sa iyong mga parameter na nakatakda, simulan ang Amazon Product Scraper sa pamamagitan ng pagpindot sa ‘Start’ button sa ibaba ng page.

Magbabago ang status mula sa 'Tumatakbo' patungong 'Nagtagumpay' kapag nakumpleto.

Isang Detalyadong Gabay sa Paggamit ng Amazon Scrapertaas="201" />ikaw tingnan ang preview ng data sa iyong screen.

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Hakbang 7: I-export Iyong File

Pindutin ang button na 'I-export ang mga resulta' upang i-download ang iyong nakolektang data. Sinusuportahan ng platform ang maraming format, kabilang ang CSV, JSON, at Excel.

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Python Amazon Scraper Paggamit Programming

Sa walang code na Amazon Scraper na ginamit namin sa itaas, kung titingnan mong mabuti ang naunang nabanggit na hakbang 6, nabigo ang 69 sa 173 na kahilingan. Ito ay dahil hinaharangan ng Amazon ang mga kahilingang iyon.

Upang i-bypass ang isyung ito, kakailanganin mong i-program ang iyong sariling scraping script. Sa gabay na ito, gumagawa kami ng Python Amazon Product Scraper.

Kaya magsimula na tayo.

Hakbang 1: I-install Python

Upang ma-code ang aming Python Amazon scraper, mahalagang magkaroon ng Python na naka-install sa iyong computer. Inirerekomenda na i-download ang pinakabagong o kamakailang mga bersyon para sa compatibility sa ang kinakailangan />Hakbang 2: Pag-import Kinakailangan Mga Aklatan

Ang pinakabuod ng anumang Amazon scraper ay kinabibilangan ng pagkuha at pag-parse ng nilalaman ng web. Para dito, gumagamit kami ng kumbinasyon ng mga library ng Python.

  • Mga Kahilingan: para sa paggawa ng HTTP mga kahilingan sa website ng Amazon
  • BeautifulSoup: Upang mag-navigate at i-parse ang HTML nilalaman ibinalik
  • lxml: para sa pag-parse
  • Panda: para sa pag-aayos at pag-export ng data

Bago i-import ang mga ito kailangan mong i-install ang mga ito gamit ang sumusunod na command:

python -m pip install mga kahilingan beautifulsoup4 lxml pandas

Ngayon ay ii-import namin ang mga ito sa loob ng aming Amazon scraper Python script:

import mga kahilingan

mula sa bs4 import BeautifulSoup

mula sa urllib.parse import urljoin

import pandas as pd


Hakbang 3: Pag-configure ng HTTP Mga Header

Ang isang karaniwang hadlang sa pag-scrape ng web sa Amazon ay ang mga pagtatanggol na hakbang ng Amazon laban sa awtomatikong pag-access. Upang maiwasan ito, ang aming Amazon scraper Python script ay ginagaya ang kahilingan ng isang web browser sa pamamagitan ng pagsasama ng mga custom na HTTP header, gaya ng 'User-Agent' and 'Accept-Language'.

Ito ay isang mas mahusay na kasanayan upang magdagdag ng higit pang mga header.

.

custom_headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWeb Kit/537.36 (KHTML, like Tuko) Chrome/122.0.0.0 Safari/537.36',
'Accept-Language': 'en-US,en;q=0.9',
'Accept-Encoding': 'gzip, deflate, br, zstd',
'Accept': 'image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8',
'Referer': 'https://www.amazon.com/'
}

Upang kunin mga header na ito para sa iyong browser,

  • pindutin ang F12 sa isang Amazon pahina upang buksan ang developer tools, >
  • Buksan ang Networks tab at Piliin Headers
  • I-reload ang pahina
  • Piliin ang unang kahilingan
  • Sa the Headers tab, scroll down upang Humiling Headers& nbsp;seksyon at kopyahin ang mga halaga ng header nabanggit sa itaas

    Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Kung wala ang mga header na ito, malaki ang posibilidad na ma-block ng Amazon ang mga kahilingan sa pagkuha at magbalik ng tugon tulad ng sumusunod na may status_code 503 (error) sa halip na 200 (tagumpay).

Upang pag-usapan awtomatikong pag-access sa Amazon data mangyaring makipag-ugnayan sa api-services-support@amazon.com.


Hakbang 4: Pagkuha ng Impormasyon ng Produkto

Ang aming Amazon Product Scraper kasama ang function scrape_amazon_product na nagsasagawa ang kritikal gawain ng pagkuha ng mga detalye produkto. Ang function kukuha ang e kategorya pahina URL bilang isang input at nagbabalik isang diksyonaryo na may ang &nbsquo&nbsquo;produkto />
Ang paraan pagkatapos nagpapadala isang humihiling sa Amazon gamit ang&n bsp;URL at ang custom header variable nilikha namin sa itaas.

Pagkatapos nito, gamit ang mga CSS selector ng BeautifulSoup, kukunin namin ang pamagat, presyo, URL ng larawan, at paglalarawan ng produkto mula sa mga indibidwal na pahina ng produkto.

def scrape_amazon_product(url):
response = requests.get(url, headers=custom_headers)
if response.status_code != 200:
print(f"Error sa pagkuha ng webpage: " data-path="143,0,0,0,7" /> return Wala

soup = BeautifulSoup(response.text, "lxml")


title_element = soup.select_one(
"#productTitle")
title = title_element.text.strip() if title_element else Wala

price_element = soup.select_one('span.a-offscreen')
price = price_element.text if price_element else Wala

image_element = soup.select_one("#landingImage")
image = image_element.attrs.get("src") if image_element else Wala

description_element = soup.select_one("#productDescription")
description = description_element.text.strip() if description_element else Wala

return {
"title": title,
"price": price,
"image": image,
"description": paglalarawan,
"url": url
}


Hakbang 5: Pagharap sa Mga Listahan ng Produkto & Pagbilang ng pahina

Para sa aming Amazon scraper Python script upang mangolekta malawak data sa pamamagitan ng paglipat sa pamamagitan ng kategorya mga pahina at paghawak sa pagination, ang script na-navigate sa mga pahina sa listahan ng produkto ng Amazon.

Tinutukoy nito ang mga link ng produkto gamit ang mga tagapili ng CSS at sinusundan ang pagination sa pamamagitan ng pagtukoy sa link ng 'Next' page.

visited_urls = set()

def parse_pages(listing_url):
global visited_urls
response = requests.get(listing_url, headers=custom_headers)
print(response.status_code)
soup_search = BeautifulSoup(response.text, "lxml")
link_elements = soup_search.select("[data-asin] h2 a" page_data = []



para sa link in link_elements:
full_url = urljoin(listing_url, link.attrs.get("href" if full_url hindi in visited_urls:
binisita ang_urls.add(full_url)
print(
f"Pag-scrape produkto mula sa 100", flush=)
product_info = scrape_amazon_product(full_brurl) if product_info:
page_data.append(product_info) data-path="151,0,0,0,35" />
next_page_el = soup_search.select_one('a.s-pagination-next')
if next_page_el:
next_page_url = next_page_el.attrs.get('href' next_page_url = urljoin(listing_url, next_page_url)
print(
f'Scraping next page: 'Totoo page_data += parse_pages(next_page_url)
return page_data


Hakbang 6: Pag-save ng Na-scrap na Data

Sa wakas, ang na-scrap na data ay pinagsama-sama sa isang listahan ng mga diksyunaryo, na pagkatapos ay iko-convert sa Pandas DataFrame. Ang DataFrame na ito ay na-export bilang isang CSV file.

def main():
data = []
search_url = "https://www.amazon.com/s?k=dell&rh=n%3A13896617011&ref=nb_sb_noss"
data = parse_pages(search_url)
df = pd.DataFrame(data)
df.to_csv("data-type="text">"Computer style. #bababa; background-color: #2b2b2b; font-family: Consolas, Consolas, Consolas;" data-type="text">, orient='records')


if __name__ == '__main__':
main()


Gamitin ang Amazon Scraper nang patago

Ang pag-scrape Amazon ay kadalasang direkta. Gayunpaman, ikaw maaaring harapin ang maramihang mga hamon tulad ng CAPTCHA, humiling ng mga pag-block, at mga limitasyon sa rate. />
Upang maiwasang mabangga ang mga isyung ito, dapat kang gumamit ng browser na anti-detect tulad ng AdsPower
Kaya mag-sign up para sa libre ngayon at simulan scraping less.

AdsPower

Pinakamahusay na Multi-Login Browser para sa Anumang Industriya

Isang Detalyadong Gabay sa Paggamit ng Amazon Scraper

Binabasa din ng mga tao