WildBerriesParser - извлекаем 7400 категорий за 8 минут

[Парсер] Автоматический сбор информации с крупнейшего маркетплейса РФ и последующая выгрузка её в БД

В рамках заказа от ~~одной небезызвестной компании~~ пришлось написать парсер, который бы собирал информацию по 7400+ категориям товаров на WildBerries и затем выгружал в удалённую базу данных MySQL Схема такова: по каждой интересующей категории выдёргиваем JSON и получаем следующую информацию:

Название категории
Нормализованное название (бывает такое, что названия склоняют по падежам, и от этого меняется количество выданных товаров, что неэффективно. Отдельная же моя функция анализирует всевозможные склонения и выбирает тот, при котором количество выданных товаров наибольшее)
Количество товаров в данной категории
Количество запросов в месяц (таким образом можно проверить ликвидность товара на рынке)
Средняя цена за ТОП-3 товара в этой категории (3 первые карточки на странице выдачи)
ТОП-4 Рекламные ставки, которые платят продавцы WildBerries за нахождение на первых позициях в поиске (это бизнес, детка!)

Выглядит это в БД примерно так:

А что по скорости? Многопоточность!

Зачем за раз анализировать одну категорию, если можно десятки? С этой целью я создал (именно создал, а не использовал готовую) реализацию семафоров, чтобы ограничить количество потоков, способных работать одновременно. Этот параметр можно без проблем подкрутить, поигравшись со скоростью P.S. Для себя я вывел число 50 - это оптимальное количество потоков, когда скорость грамотно сочетается с сохранностью данных

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
README.md		README.md
categories.json		categories.json
database.py		database.py
example.jpg		example.jpg
main.py		main.py
test.py		test.py
threads.jpg		threads.jpg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WildBerriesParser - извлекаем 7400 категорий за 8 минут

Выглядит это в БД примерно так:

А что по скорости? Многопоточность!

About

Releases

Packages

Languages

OYBOLATOFF/WildBerriesParser

Folders and files

Latest commit

History

Repository files navigation

WildBerriesParser - извлекаем 7400 категорий за 8 минут

Выглядит это в БД примерно так:

А что по скорости? Многопоточность!

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages