Отборочный тур в Яндекс Лицей++
Решение представляет собой оценку датасета с титаником.
-
Найти решение для пропущенных значений в столбцах
Для столбцов порта и города посадки и палубы было принято решение заполнить пропуски простыми флагами
U
илиUnknown
. Для столбца с возрастом была написана небольшая нейронная сеть -
Ответить на вопросы:
A. Кого больше среди пассажиров — мужчин или женщин?
Больше было мужчин
B. Каков процент взрослых мужчин от всех пассажиров?
59% взрослых мужчин
C. Сколько людей в каждом классе?
Первый класс - 216 человек
Второй класс - 184 человека
Третий класс - 491 человек
-
Провести анализ с помощью метода
describe()
Развернутый ответ здесь
-
Создать новую таблицу только с выжившими пассажирами и по ее данным ответить на вопросы:
A. Как изменился процент взрослых мужчин?
Процент взрослых мужчин упал с 59% до 25%
B. Какие изменения произошли в других столбцах?
Развернутый ответ на вопрос можно найти здесь
- Google Drive (сама модель)
- Dockerhub (программа для заполнения пустых столбцов)
Как запустить с docker:
- Скачать с dockerhub.
docker pull tikovka72/age-model:latest
- Запустить контейнер. Необходимо поменять
your_file.csv
на имя вашегоcsv
файла.
docker run --name age-model -v /root/your_file.csv:/csv/your_file.csv -e csv=your_file.csv tikovka72/age-model
- Скопировать файл из контейнера. Вместо
new_file.csv
можно использовать любое имя.
docker cp age-model:/csv/docker_out.csv new_file.csv
- После работы удалить контейнер и образ:
docker container rm --force age-model
docker image rmi --force age-model