GitHub - opendataby/vybary2019: Датасет по депутатам

Информация о кандидатах в пригодном для анализа виде. По всем вопросам:

Telegram: https://t.me/opendataby

Существует три независимо собранных датасета:

https://github.com/ushchent/el_machina/ - продолжение проекта "Избирательная машина" 2016 года (@chegor, @gsk990, @ushchent и др.) с обновлёнными данными на 2019 для предсказания результатов. Среди прочего содержит астральные знаки зодиака для более чёткого прочтения знаков вселенной.
excel - датасет от Dmitry Rogozhny (@dmitryrogozhny) - ламповый датасет в формате Excel и CSV с информацией о том, кто из кандидатов уже является депутатом.
dataset - полностью автоматический парсинг сайта http://vybary2019.by на Python + pandas. Есть задача кроме парсинга таблиц, ещё парсить текст, в котором упоминаются доходы, даты рождения и, возможно, другая полезная для анализа информация.

Обновление датасета 3

Для обновления dataset/regions.csv нужен только Python 3.

python3 01pages.py -f

Для обновления dataset/candidates.csv нужен как минимум Jupyter.

jupyter nbconvert --execute parse.ipynb

Введение в pandas :D

Распарсить HTML страницу, сохранить первую табличку в pandas dataframe d. Добавить пробел в восьмую позицию в каждой строке первой колонке, потому что pandas его склеивает pandas-dev/pandas#29528

import pandas as pd
d = pd.read_html('http://vybary2019.by/regions/49.html',header=0)[0]
d.iloc[:,0] = d.iloc[:,0].apply(lambda x: x[:8]+' '+x[8:])

ChangeLog

2019.11.17 (дзень выбарау)

-1 кандидат в Гомеле по 32му региону, всего участвует 518
в сравнение датасетов добавлен датасет el_machina, размеры датасетов, сравенения полей

2019.11.16 (завтра)

конкурс от am@opendata.by (@ushchent) - до сегодняшнего вечера нужно прислать PR со своими вариантами - кто пройдёт и кто нет из кандидатов 2019го года в CSV на https://github.com/ushchent/el_machina Формат, допустим data/predict-{user}.csv, присутствовать должны только кандидаты 2019го, как минимум идентификатор кандидата и булевый флаг прошёл/или нет. Вероятность желательна, но необязательна.

2019.11.15 (2 дня до выборов)

надо попуститься

2019.11.14 (за 3 дня)

dataset/regions.csv готов, вместе с границами и контактами
добавлены тетрадки с экспериментами
- canal02-datadiff.ipynb - незаконченное сравнение датасетов
- canal03-parsing.ipynb - задача извлечения значений с помощью ML
- canal03-parsing-with-mindsdb.ipynb - фейл извлечения с помощью MindsDB

2019.11.13 (4)

за два дня с 10:39 11го ноября выбыло 5 кандидатов
инструкции по обновлению датасета
CSV с кандидатами уехала в dataset/candidates.csv
canal01-generations.ipynb - анализ поколений кандидатов
заработали предсказания на 2019ый http://ushchent.github.io/el_machina/

2019.11.12 (осталось 5)

описание всех трёх датасетов
ссылка на проект предсказания выборов от Alexey Medvetsky
экспорт распаршеных кандидатов в CSV (@Alexanderexe)

2019.11.11 (6 дней до..)

независимо собранный excel от @dmitryrogozhny с доп.информацией - пол и является ли текущим депутатом
скрипт ./go.sh для сборки датасета
собранные скриптами данные теперь в ,/dataset (пока только regions.csv)

2019.11.10 (за 7 дней до..)

проект на гитхабе, maintenance команд на гитхаб и настройка команды @opendata/datafolks
иконка @opendata/datafolks из случайного скриншота
тикет в пандас pandas-dev/pandas#29528
parse.ipynb парсинг данных кандидата на pandas + BeautifulSoup (@Alexanderexe)
dataset/regions.csv спиcок регионов с сайта (@abitrolly)

Credits

@Alexanderexe
@abitrolly
@dmitryrogozhny
@ushchent
@chego
@gsk990
и др.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Обновление датасета 3

Введение в pandas :D

ChangeLog

Credits

About

Releases

Packages

Contributors 4

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
cache		cache
dataset		dataset
excel		excel
01pages.py		01pages.py
LICENSE		LICENSE
README.md		README.md
canal01-generations.ipynb		canal01-generations.ipynb
canal02-datadiff.ipynb		canal02-datadiff.ipynb
canal03-parsing-with-mindsdb.ipynb		canal03-parsing-with-mindsdb.ipynb
canal03-parsing.ipynb		canal03-parsing.ipynb
dataicon.png		dataicon.png
go.sh		go.sh
parse.ipynb		parse.ipynb

License

opendataby/vybary2019

Folders and files

Latest commit

History

Repository files navigation

Обновление датасета 3

Введение в pandas :D

ChangeLog

Credits

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 4

Languages

Packages