Этот проект представляет собой специализированный парсер, предназначенный для парсинга и анализа документов PEP (Python Enhancement Proposals) с официального сайта PEP. Начиная с главной страницы https://peps.python.org/, парсер перемещается по ссылкам PEP, извлекая такие важные данные, как номер PEP, его название и текущий статус. Извлеченные данные сохраняются в двух разных файлах .csv:
- первый файл содержит полный список всех PEP с указанием их номера, названия и статуса. Этот файл называется pep_DateTime.csv (например, pep_2029-01-31-31T23-55-00.csv).
- второй файл содержит сводку статусов PEP, указывая, сколько документов связано с каждым статусом. Эта сводка завершается подсчетом "Всего" всех разобранных PEP. Именование этого файла сводки - status_summary_DateTime.csv (например, status_summary_2029-01-31_23-55-00.csv).
Этот парсер предлагает надежный и автоматизированный способ извлечения и анализа текущего состояния предложений по усовершенствованию Python.
Клонировать репозиторий и перейти в него в командной строке используя команду
cd
git clone git@github.com:aleksandr-miheichev/pep_analysis.git
Создать и активировать виртуальное окружение:
python -m venv venv
source venv/Scripts/activate
Установить зависимости из файла requirements.txt:
pip install -r requirements.txt
Чтобы запустить паука необходимо в командной строке использовать команду:
scrapy crawl pep
Сохранённые данные Вы сможете найти в папке results
.