Skip to content

[Парсер] Автоматический сбор информации с крупнейшего маркетплейса РФ и последующая выгрузка её в БД

Notifications You must be signed in to change notification settings

OYBOLATOFF/WildBerriesParser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

WildBerriesParser - извлекаем 7400 категорий за 8 минут

[Парсер] Автоматический сбор информации с крупнейшего маркетплейса РФ и последующая выгрузка её в БД

В рамках заказа от одной небезызвестной компании пришлось написать парсер, который бы собирал информацию по 7400+ категориям товаров на WildBerries и затем выгружал в удалённую базу данных MySQL Схема такова: по каждой интересующей категории выдёргиваем JSON и получаем следующую информацию:

  1. Название категории
  2. Нормализованное название (бывает такое, что названия склоняют по падежам, и от этого меняется количество выданных товаров, что неэффективно. Отдельная же моя функция анализирует всевозможные склонения и выбирает тот, при котором количество выданных товаров наибольшее)
  3. Количество товаров в данной категории
  4. Количество запросов в месяц (таким образом можно проверить ликвидность товара на рынке)
  5. Средняя цена за ТОП-3 товара в этой категории (3 первые карточки на странице выдачи)
  6. ТОП-4 Рекламные ставки, которые платят продавцы WildBerries за нахождение на первых позициях в поиске (это бизнес, детка!)

Выглядит это в БД примерно так:

Записи категорий в БД

А что по скорости? Многопоточность!

Зачем за раз анализировать одну категорию, если можно десятки? С этой целью я создал (именно создал, а не использовал готовую) реализацию семафоров, чтобы ограничить количество потоков, способных работать одновременно. Этот параметр можно без проблем подкрутить, поигравшись со скоростью P.S. Для себя я вывел число 50 - это оптимальное количество потоков, когда скорость грамотно сочетается с сохранностью данных Многопоточность в парсере

About

[Парсер] Автоматический сбор информации с крупнейшего маркетплейса РФ и последующая выгрузка её в БД

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages