logo
empty

Как парсить Etsy с кодом и без?

2024/04/07 16:58:46Автор: AdsPowerЧитатели: 294

Etsy - это дом для товаров ручной работы, винтажных изделий и ремесленных поделок. С почти 500 миллионами ежемесячных посещений это очень прибыльный рынок для продавцов, желающих развивать свой бизнес.

Знание того, что хорошо продается, следование последним тенденциям и анализ конкурентов - обязательные условия для развития вашего бизнеса.

Однако вручную просеивать миллионы объявлений о товарах на Etsy слишком сложно, а то и вовсе невозможно.

Именно тогда вам придется парсить данные Etsy. Это позволит вам получить множество ценных данных Etsy в упорядоченном виде, а также сэкономит ваше время и силы.

Это именно то, чему посвящено данное руководство. Мы покажем вам, как парсить Etsy с помощью парсинга Etsy без кода и Python. Поэтому, независимо от того, есть у вас опыт кодирования или нет, это руководство будет полезным.

2 способа парсинга на Etsy

Ниже приведены два метода парсинга Etsy. Первый из них использует парсинг Etsy без кода и поможет тем, кто не умеет кодировать, в то время как второй основан на Python. Так что выбирайте из двух подходов в зависимости от ваших навыков.

Использование готового парсинга Etsy

Раньше парсинг был уделом исключительно кодеров. Однако с появлением инструментов для парсинга без кода, веб-скраппинг стал доступен любому человеку с минимальными компьютерными знаниями.

Сегодня мы используем инструмент без кода под названием Octoparse, чтобы парсить Etsy. Итак, приступим к пошаговому руководству.

Шаг №1: Загрузите и установите Octoparse

Посетите веб-сайт Octoparse, чтобы загрузить инструмент. После загрузки следуйте простым инструкциям, чтобы установить его на свой компьютер.

Теперь запустите Octoparse и создайте новый аккаунт или войдите в него, используя учетную запись Google или Microsoft, если она у вас уже есть.

С помощью Octoparse у вас есть два варианта парсинга данных Etsy: использование готового шаблона или создание собственного парсинга.



Это руководство посвящено созданию собственного парсинга для Etsy. Хотя использовать шаблон относительно просто, создание собственного шаблона дает больше возможностей для настройки. Давайте начнем с этого.

Шаг №2: Введите URL-адрес Etsy для автоматического рабочего процесса

Запустите Octoparse и вставьте URL-адрес страницы Etsy, которую вы хотите парсить, в строку поиска.

Возможно, вы захотите парсить страницу списка товаров Etsy или страницу результатов поиска. Octoparse может обрабатывать любые URL.



После того, как вы вставили URL-адрес, нажмите "Start", чтобы загрузить страницу Etsy в Octoparse. Для нашего примера мы используем страницу результатов поиска по запросу "свечи ручной работы".

Шаг №3: Выберите данные для извлечения

После нажатия кнопки "start" страница загрузится в Octoparse, который автоматически идентифицирует и маркирует данные, которые он считает пригодными для утилизации.



После завершения этого процесса вы увидите все обнаруженные данные о продуктах, помеченные (возможно, вам придется переименовать некоторые из них для точности) и отображенные в таблице предварительного просмотра ниже.

У вас есть возможность удалить все колонки данных, которые вы считаете ненужными, нажав на значок мусорной корзины рядом с ними.

Если все пройдет гладко, Octoparse также может автоматически обрабатывать пагинацию, чтобы парсинг мог перемещаться по нескольким страницам.

Нажмите "Создать рабочий процесс", чтобы увидеть блок-схему вашего проекта парсинга. Не стесняйтесь корректировать ее, добавляя или убирая шаги по мере необходимости.



Шаг №4: Настройка меток данных

Иногда Octoparse может неправильно обозначать поля данных. Вы захотите их исправить. Например, давайте изменим столбец с неправильным названием "название" на "рейтинг", дважды щелкнув по названию столбца и введя правильное.



Аналогичным образом измените другие неправильно обозначенные названия столбцов.

Вы заметите, что наш рабочий процесс также парсит некоторые бесполезные данные, такие как символы валют или текст кнопок. Вы можете удалить эти поля, нажав на три точки рядом с названием столбца и выбрав в меню опцию "Удалить поле".



После упорядочивания и присвоения имен полям данных, вот как выглядит наша таблица предварительного просмотра.



Шаг №5: Запустите свой парсинг на Etsy

Когда все будет готово, нажмите "Save", а затем "Run" в правом верхнем углу окна, чтобы начать парсинг данных с Etsy.



Появится запрос о том, где вы хотите запустить задание - на устройстве или в облаке. Мы выбрали локальный запуск этого руководства.



Помните, что вы должны вручную остановить задание, нажав "Stop" или "Pause", чтобы оно не выполнялось бесконечно, поскольку мы не установили лимит страниц, а на Etsy может быть бесконечное количество страниц.



Шаг №6: Экспортируйте парсированные данные Etsy

Наконец, вы можете экспортировать парсированные данные в такие форматы, как Excel, CSV или другие, в зависимости от ваших требований.



Парсинг Etsy с помощью Python

Хотя парсить Etsy с помощью инструментов без кода проще всего, существует также простой способ парсить Etsy с помощью Python.

В Etsy Python API есть встроенные функции, позволяющие парсить данные о товарах и продавцах с Etsy.

Функция парсинга товаров принимает URL-адрес товара и извлекает его ID, название, описание и цену, а также другие атрибуты. Функция продавца работает аналогичным образом и возвращает такие поля данных, как имя продавца, местоположение, количество продаж и список продуктов.

Всё, что вам остаётся, - это установить библиотеку в свою систему с помощью pip install etsy_scraper и импортировать её в свой скрипт, набрав import etsy_scraper.

После этого вызовите функцию продукта или продавца с соответствующим URL-адресом Etsy в качестве входных данных, как показано ниже;

import etsy_scraper

productScrape(https://www.etsy.com/listing/540091623/italian-garden-essential-oil-candle?click_key=100bc1abf4cfe1ad2b3fef753903f0f5003a836b%3A540091623&click_sum=e4f02487&external=1&ref=hp_signed_out_opfy-1-1)

vendorScrape(https://www.etsy.com/shop/OctoandCo?ref=shop-header-name&listing_id=540091623&from_page=listing)

Однако эта библиотека имеет ограниченную функциональность и не может парсить страницы с листингами товаров Etsy или результаты поиска.

Поэтому вам придется написать парсинг Etsy на Python с нуля. Вот основные шаги для этого:

  1. Установите Python: Загрузите последнюю версию Python с официального сайта.

  2. Установите BeautifulSoup и другие библиотеки: Вам нужно установить библиотеки Python, необходимые для парсинга.

    • BeautifulSoup4 для разбора документов HTML и XML

    • requests library для выполнения HTTP-запросов

    • lxml для разбора XML и HTML в Python

    • soupsieve для расширенного выбора CSS

  3. Запишите начальный код: Откройте редактор кода и импортируйте BeautifulSoup из bs4 и requests.

  4. Притворитесь браузером: В своем скрипте включите HTTP-заголовки, чтобы имитировать запрос браузера. Изменение заголовка User Agent часто необходимо для доступа к веб-страницам, которые ограничивают доступ для скриптов или ботов.

  5. Получите веб-страницу: Используйте библиотеку 'requests', чтобы получить страницу Etsy, которую вы хотите парсить. В качестве аргументов передайте URL и заголовки.

  6. Разберите страницу: Получив содержимое страницы, используйте BeautifulSoup для его разбора. Для этого нужно создать объект BeautifulSoup и указать 'lxml' в качестве парсера.

  7. Используйте CSS Selectors: Изучите страницу Etsy, чтобы определить CSS-селекторы, соответствующие данным, которые вы хотите парсить. Разберитесь в структуре страницы и найдите классы или теги, которые содержат нужные данные.

  8. Извлеките данные: Пройдитесь по элементам, выбранным с помощью селекторов CSS, и извлеките нужную информацию, например, названия товаров, цены, рейтинги или изображения.

  9. Экспортируйте данные: После того как сценарий заработает как надо, экспортируйте данные в выбранный вами формат файла, например CSV или JSON.

Подробное руководство с фрагментами кода можно найти в этом блоге.

Парсите Etsy без лишних хлопот

В нашем учебном пособии мы только начали изучать данные Etsy, поэтому не столкнулись с проблемами. Однако ваш парсинг Etsy может столкнуться с некоторыми препятствиями, если вы собираетесь парсить большие объемы данных.

Для парсинга больших объемов данных требуется отправлять множество HTTP-запросов на веб-сервер Etsy, что не является нормальным поведением пользователя. Это может раскрыть ваш парсинг Etsy и привести к его постоянной блокировке.

Но есть и хорошие новости: AdsPower поможет вашим проектам по парсингу Etsy работать без блокировок.

AdsPower - это надежный антидетект-браузер, предназначенный для маскировки вашей деятельности при парсинге. Он использует такие передовые методы, как ротация прокси, подмена отпечатков пальцев и задержка запросов, чтобы замаскировать ваш парсинг и сделать его похожим на обычный трафик браузера для систем защиты от ботов Etsy.

Зарегистрируйтесь на AdsPower сегодня бесплатно и парсите Etsy, не опасаясь блокировок и запретов.

Комментарии
0/50
0/300
Популярные комментарии
no_comment

Здесь ничего нет... Оставьте первый комментарий!