AdsPower
AdsPower

Amazon Scraper 사용에 대한 자세한 가이드

By AdsPower||2,755 Views

웹 스크래핑은 현명하게 수행하면 기업에 매우 수익성이 높을 수 있습니다. 믿지 못하시겠어요? 고려해 보세요.이 스토리는단지 두 달 만에 80만 달러라는 엄청난 수익을 올린 웹사이트에 대한 이야기입니다. 그동안 그들이 한 일은 매일 Amazon 리뷰를 긁어 모으는 것이었습니다. 멋지죠?

하룻밤 사이에 엄청난 돈을 벌 수 있다고 약속할 수는 없지만 Amazon에서 수익을 내는 방법을 알려드릴 수는 있습니다.

이 블로그를 읽고 Amazon에서 데이터를 스크래핑하는 두 가지 방법을 알아보세요. 하나는 코드 없이 Amazon Scraper를 사용하는 방법이고, 다른 하나는 코드를 통해 Python Amazon Scraper를 빌드하는 방법입니다.

하지만 먼저 Amazon에서 데이터를 스크래핑해도 되는지 확인해 보겠습니다.

아마존 스크래핑은 합법인가요?

아마존 스크래핑에 관한 규칙은 다소 모호합니다. 아마존의robots.txt 파일 은 허용되는 스크래핑 매개변수를 긴 목록으로 구체화하여 스크래핑 가능한 항목과 엄격히 금지된 영역을 명시합니다.

그러나 robots.txt 파일은 단순히 윤리적 지침으로만 사용되며 법적 구속력이 없습니다. 따라서 Amazon Scraper는 문제 없이 접근 금지 구역에 접근할 수 있습니다.

하지만 Amazon은 여기서 멈추지 않습니다. 봇으로 인한 서버 과부하를 방지하기 위해 기술적 장벽을 구축하여 더 나아갑니다.

예를 들어, CAPTCHA 테스트 및 속도 제한과 같은 스크래핑 방지 조치를 사용합니다. 이러한 장애물을 극복하려면 Amazon 스크래퍼에 다음 기능이 필요합니다.
고급 기술사용자 에이전트 스푸핑과 같은CAPTCHA를 해결하거나 요청을 지연하는 것그렇지 않으면 Amazon 스크래핑 시도는 꿈에 불과할 것입니다.

따라서 간략하게 답변하자면
“아마존은 웹 스크래핑을 허용합니까?”: 아마존 데이터 웹 스크래핑의 적법성은 명확하지 않으며 다음을 포함한 다양한 요인에 따라 달라집니다.

  • 스크래핑되는 데이터 유형
  • 스크래핑에 사용되는 메서드
  • 및 스크래핑된 데이터의 목적


스크래핑이 무단 접근(예: 로그인 뒤에 있는 데이터)을 수반하지 않거나 사이트의 인프라를 과부하시키지 않는 한 일반적으로 안전한 범주에 속합니다. 대법원도 변호했습니다.
LinkedIn에서 소송을 당한 데이터 분석 회사CFAA에 따라 무단 웹 스크래핑을 이유로 고소당했습니다.

또한 스크래핑된 데이터를 합법적으로 사용하는지 확인해야 합니다. 즉, 재판매하거나 복제해서는 안 됩니다. 심각한 법적 문제가 발생할 수 있습니다.

이제 백만 달러짜리 질문입니다. 아마존을 스크래핑하는 방법은 무엇일까요?

아마존 스크래핑 방법

기술적인 어려움에도 불구하고 아마존 스크래핑은 쉽습니다. 아마존 스크래핑에는 코드 및 노코드 도구가 많이 있으며, 아마존의 봇 방지 조치에 대처할 수 있는 솔루션도 제공합니다. 이러한 도구를 사용하면 Amazon 리뷰, 제품, 가격 등의 데이터를 쉽게 스크래핑할 수 있습니다.

그럼 먼저 코드 없는 Amazon Scraper부터 시작해 보겠습니다.

코드 없는 Amazon Scraper:

솔직히 말해서, 이 글을 읽는 현재 독자는 코딩 기술이 없을 가능성이 높습니다. 하지만 그건 문제가 되지 않습니다. 코드가 없는 Amazon 스크래퍼를 사용할 수 있다면 코딩 지식이 필요하지 않습니다.

이 도구를 사용하면 제품 또는 카테고리 페이지 URL만 제공하면 스크래퍼가 해당 페이지의 모든 Amazon 제품 데이터를 가져옵니다. Amazon 웹 스크래핑이 완료되면 다양한 파일 저장 옵션도 제공됩니다.

이 데모에서는 Apify의 Amazon Scraper를 선택했습니다. Apify는 Amazon Product Scraper, Amazon Review Scraper, Amazon Bestsellers Scraper 등 Amazon의 다양한 영역을 스크래핑하는 별도의 도구를 제공합니다.

이 가이드에서는 Apify의 Amazon Product Scraper를 사용합니다. Amazon Product Scraper는 CAPTCHA를 풀고 프록시를 설정하여 봇 방지 조치를 회피하는 기능을 제공합니다.

자, 데모를 시작해 보겠습니다.

1단계: Amazon 상품 스크래퍼 페이지 방문

접속아마존 제품 스크래퍼Apify Store에서 '무료로 사용해보기' 버튼을 클릭하세요. 이 도구를 사용하면 가격, 리뷰, 제품 설명, 이미지, 기타 여러 속성을 포함한 Amazon 제품 데이터를 스크래핑할 수 있습니다.

Amazon Scraper 사용에 대한 자세한 가이드

2단계: Apify 계정 만들기

처음 사용하시는 경우, Apify 계정에 무료로 가입하세요. 이 플랫폼은 이메일, Google 또는 GitHub을 통한 가입 옵션을 제공합니다.

Amazon Scraper 사용에 대한 자세한 가이드

3단계: 대상 콘텐츠의 Amazon URL 붙여넣기

Apify 콘솔에 스크래핑하려는 Amazon 상품 또는 카테고리의 URL을 입력하세요. 저희는 비디오 게임 콘솔 및 액세서리가구이 예시에서는 카테고리 입니다.

Amazon Scraper 사용에 대한 자세한 가이드

‘+ 추가’ 버튼을 눌러 더 많은 링크를 삽입할 수 있습니다. 링크가 많은 경우, 모든 링크를 텍스트 파일에 추가하여 Amazon Scraper에 업로드할 수 있습니다.

또한, '최대 항목' 필드에 제한을 설정하여 스크래핑할 최대 항목 수를 결정하세요. 15개로 설정되어 있지만, 원하는 만큼 설정할 수 있습니다.

4단계: CAPTCHA 솔버 활성화

CAPTCHA 솔버 없이는 Amazon에서 스크래핑할 수 없습니다. Amazon은 봇을 감지하는 데 매우 효율적인 것으로 알려져 있습니다. 봇 활동이 의심되는 즉시 봇에 CAPTCHA를 표시합니다.

Amazon Scraper가 원활하게 작동하도록 하려면 CAPTCHA 해결 기능을 활성화하세요.

Amazon Scraper 사용에 대한 자세한 가이드

5단계: 프록시 구성

스크래핑 방지 조치를 우회하려면 프록시를 사용하는 것이 필수적입니다. Amazon 스크래퍼는 주거용, 데이터센터용 또는 자체 프록시 등 다양한 프록시 옵션을 제공하여 스크래핑 활동을 가리고 제한 사항을 우회합니다. 주거용 프록시와 데이터센터 프록시의 차이점다른 블로그에서 확인하세요.

주거용 프록시 옵션은 스크래핑 방지 시스템에 가장 적합하므로 기본적으로 선택되어 있습니다.

Amazon Scraper 사용에 대한 자세한 가이드

6단계: 스크래퍼 실행

매개변수를 설정했으면 '시작' 버튼을 눌러 Amazon 상품 스크래퍼를 시작합니다. 페이지 하단의 버튼을 클릭합니다.

완료 시 상태가 '실행 중'에서 '성공'으로 변경됩니다.

Amazon Scraper 사용에 대한 자세한 가이드

완료 후 화면에 데이터 미리보기가 표시됩니다.

Amazon Scraper 사용에 대한 자세한 가이드

7단계: 파일 내보내기

'결과 내보내기' 버튼을 눌러 수집된 데이터를 다운로드하세요. 이 플랫폼은 CSV, JSON, Excel 등 다양한 형식을 지원합니다.

Amazon Scraper 사용에 대한 자세한 가이드

프로그래밍을 활용한 Python Amazon Scraper

위에서 사용한 노코드 Amazon Scraper에서 앞서 언급한 6단계를 자세히 살펴보면 173개의 요청 중 69개가 실패했습니다. 이는 Amazon에서 해당 요청을 차단했기 때문입니다.

이 문제를 해결하려면 직접 스크래핑 스크립트를 프로그래밍해야 합니다. 이 가이드에서는 Python Amazon 상품 스크래퍼를 만들어 보겠습니다.

자, 시작해 보겠습니다.

1단계: Python 설치

Python Amazon 스크래퍼를 코딩하려면 컴퓨터에 Python이 설치되어 있어야 합니다. 권장하는 방법은 다음과 같습니다.최신또는 필요한 라이브러리와의 호환성을 위해 최신 버전을 다운로드하세요.

2단계: 필요한 라이브러리 가져오기

아마존 스크래퍼의 핵심은 웹 콘텐츠를 가져오고 파싱하는 것입니다. 이를 위해 여러 Python 라이브러리를 함께 사용합니다.

  • 요청:Amazon 웹사이트에 HTTP 요청을 전송하는 데 사용
  • BeautifulSoup: 반환된 HTML 콘텐츠를 탐색하고 파싱합니다.
  • lxml: 파싱합니다.
  • Pandas:데이터 정리 및 내보내기

가져오기 전에 다음 명령어를 사용하여 설치해야 합니다.

python -m pip install requests beautifulsoup4 lxml pandas

이제 Amazon 스크래퍼 Python 스크립트로 이들을 가져오겠습니다.

요청 가져오기

bs4에서 BeautifulSoup 가져오기

urllib.parse에서 가져오기 urljoin

pandas를 pd로 가져오기


3단계: HTTP 헤더 구성

아마존 웹 스크래핑에서 흔히 발생하는 문제는 자동화된 접근에 대한 아마존의 방어 조치입니다. 이를 방지하기 위해 저희 아마존 스크래퍼 Python 스크립트는 다음과 같은 사용자 지정 HTTP 헤더를 포함하여 웹 브라우저의 요청을 모방합니다. 'User-Agent''Accept-Language'헤더를 더 추가하는 것이 더 좋습니다.

custom_headers = {
'사용자 에이전트': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36',
'Accept-Language': 'en-US,en;q=0.9',
'Accept-Encoding': 'gzip, deflate, br, zstd',
'수락': 'image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8',
'참조자': 'https://www.amazon.com/'
}

브라우저에서 이 헤더를 사용하려면,

  • Amazon 페이지에서 F12 키를 눌러 개발자 도구를 엽니다.
  • 네트워크 탭을 열고 헤더를 선택합니다.
  • 페이지를 새로고침합니다.
  • 페이지를 새로고침합니다.
  • 첫 번째 요청을 선택하세요.
  • 헤더 탭에서 요청 헤더 섹션까지 아래로 스크롤하여 위에 언급된 헤더 값을 복사하세요.

    Amazon Scraper 사용에 대한 자세한 가이드

이러한 헤더가 없으면 Amazon에서 get 요청을 차단하고 200(성공) 대신 503(오류) 상태 코드를 포함한 다음과 같은 응답을 반환할 가능성이 높습니다.

Amazon 데이터 자동 접근에 대한 문의는 api-services-support@amazon.com으로 연락해 주세요.


4단계: 제품 정보 추출

저희 Amazon 제품 스크래퍼에는 다음 함수가 포함되어 있습니다.scrape_amazon_product 제품 세부 정보를 추출하는 중요한 작업을 수행합니다. 이 함수는 Amazon 카테고리 페이지 URL을 입력으로 받아 제품 정보가 포함된 사전을 반환합니다.

그런 다음 이 메서드는 위에서 생성한 URL과 커스텀 헤더 변수를 사용하여 Amazon에 요청을 전송합니다.

그런 다음 BeautifulSoup의 CSS 선택자를 사용하여 개별 제품 페이지에서 제품의 제목, 가격, 이미지 URL 및 설명을 가져옵니다.

def 아마존_제품_스크랩(url):
response = requests.get(url, headers=custom_headers)
if response.status_code != 200:
print(f"웹페이지를 가져오는 중 오류 : {url}")
반환 없음

soup = BeautifulSoup(response.text, "lxml")

title_element = soup.select_one("#productTitle")
title = title_element.text.strip() if title_element else 없음

price_element = soup.select_one('span.a-offscreen')
price = price_element.text if price_element else 없음

image_element = soup.select_one("#landingImage")
image = image_element.attrs.get("src") if image_element else 없음

description_element = soup.select_one("#productDescription")
description = description_element.text.strip() if description_element else 없음

반환 {
"title": title,
"price": price,
"image": image,
"description": description,
"url": url
}


5단계: 제품 목록 처리 및 페이지 매김

카테고리 페이지를 이동하고 페이지 매김을 처리하여 광범위한 데이터를 수집하는 Amazon 스크래퍼 Python 스크립트의 경우, 스크립트는 Amazon의 제품 목록 페이지를 탐색합니다.

CSS 선택기를 사용하여 제품 링크를 식별하고 페이지 매김을 추적하여 '다음' 페이지 링크.

visited_urls = set()

def parse_pages(listing_url):
글로벌 visited_urls
response = requests.get(listing_url, headers=custom_headers)
print(response.status_code)
soup_search = BeautifulSoup(response.text, "lxml")
link_elements = soup_search.select("[data-asin] h2 a")
page_data = []

for link in link_elements:
full_url = urljoin(listing_url, link.attrs.get("href"))
if full_url not in visited_urls:
visited_urls.add(full_url)
print(f" 제품 스크래핑 에서 {full_url[:100]}", flush=)
product_info = scrape_amazon_product(full_url)
if 제품_정보:
page_data.append(product_info)

next_page_el = soup_search.select_one('a.s-pagination-next')
if next_page_el:
next_page_url = next_page_el.attrs.get('href')
next_page_url = urljoin(listing_url, next_page_url)
print(f'스크래핑 다음 페이지: {next_page_url}', flush=)
page_data += parse_pages(next_page_url)

return page_data


6단계: 스크래핑된 데이터 저장

마지막으로, 스크래핑된 데이터는 사전 목록으로 집계되고, 이는 Pandas DataFrame으로 변환됩니다. 이 DataFrame은 CSV 파일로 내보내집니다.

def main():
data = []
search_url = "https://www.amazon.com/s?k=dell&rh=n%3A13896617011&ref=nb_sb_noss"
data = parse_pages(search_url)
df = pd.DataFrame(데이터)
df.to_csv("Computer_Tablets.csv", orient='레코드')

if __name__ == '__main__':
main()


Amazon Scraper를 은밀하게 사용하세요

Amazon 스크래핑은 일반적으로 간단합니다. 하지만 CAPTCHA, 요청 차단, 속도 제한 등 여러 가지 문제에 직면할 수 있습니다.

이러한 문제를 방지하려면 다음과 같은 탐지 방지 브라우저를 사용해야 합니다.AdsPower. AdsPower는 지문 스푸핑 및 프록시 회전과 같은 기능을 제공하여 Amazon 스크래퍼가 감지되지 않도록 보장합니다.

따라서 지금 무료로 가입하세요지금 무료로 가입하고 Amazon 스크래핑을 원활하게 시작하세요.

AdsPower

모든 업계를 위한 최고의 다중 로그인 브라우저

Amazon Scraper 사용에 대한 자세한 가이드

다른 사람이 읽은 항목

  • 코드가 있거나 없는 상태에서 Etsy에서 스크래핑하는 방법은?코드가 있거나 없는 상태에서 Etsy에서 스크래핑하는 방법은?

    코드가 있거나 없는 상태에서 Etsy에서 스크래핑하는 방법은?

    Etsy는 사업 성장을 원하는 판매자들에게 수익성이 좋은 스크래핑 시장입니다. 이 가이드를 읽고 코드 없이 스크래퍼를 사용하여 Etsy에서 스크래핑하는 방법을 알아보세요.

  • 노코드 도구와 TikTok API를 사용하여 TikTok을 스크래핑하는 방법은?노코드 도구와 TikTok API를 사용하여 TikTok을 스크래핑하는 방법은?

    노코드 도구와 TikTok API를 사용하여 TikTok을 스크래핑하는 방법은?

    이 블로그를 읽고 코드 없이 TikTok 스크래퍼와 맞춤형 Python TikTok 스크래퍼를 사용하여 TikTok을 스크래핑하는 방법을 알아보세요.

  • 알리바바에서 쉽게 스크래핑하는 방법?알리바바에서 쉽게 스크래핑하는 방법?

    알리바바에서 쉽게 스크래핑하는 방법?

    알리바바에서 간편하게 스크래핑하고 싶으신가요? 코드 한 줄 작성 없이 무료 알리바바 스크래퍼를 사용하여 알리바바 상품을 스크래핑하는 방법을 알려드리겠습니다.

  • 단계별 eBay 스크래핑 가이드단계별 eBay 스크래핑 가이드

    단계별 eBay 스크래핑 가이드

    eBay에서 스크래핑하는 방법을 쉽게 배우고 싶으신가요? 이 가이드에서는 다양한 기술 수준에 맞는 두 가지 eBay 스크래핑 방법을 소개합니다.

  • Shopify 스크래퍼 가이드: 코드 사용 및 미사용 두 가지 방법Shopify 스크래퍼 가이드: 코드 사용 및 미사용 두 가지 방법

    Shopify 스크래퍼 가이드: 코드 사용 및 미사용 두 가지 방법

    Shopify 스크래핑은 다른 전자상거래 사이트보다 간단합니다. 노코드 스크래퍼와 Python 스크립트 가이드를 통해 Shopify 데이터를 내보내는 방법을 알아보세요.