Цель данного проекта, получить пайплайн, способный доставать краткие теги из отзывов с сервиса Trapadvisor. В проекте используется тюненая модель roberta, а также методы NLP.
Работоспособность тестировалась на linux ubuntu22.04 WSL Архитектура процессора x86_64 GPU 4GB
Может потребоваться сменить url загрузки torch в файле pyproject.toml
на совместимую с вашей системой. Ознакомится можно по ссылке.
Сначала необходимо установить зависимости и настроить окружение
make start
Опционально (только для Levart): Для использования dvc с minio необходимо настроить локальные креды:
dvc remote modify --local minio access_key_id "accessKey"
dvc remote modify --local minio secret_access_key "secretKey"
После можно загрузить данные:
dvc pull
Для того, чтобы воспроизвести эксперимент воспользуйтесь командой
make reproduce_experiment
В модель передается корпус текста и вопрос, результатом работы является ответ на вопрос из текста. После softmax, получаю некоторые "вероятности". Регулируя cutoff, можно выкидывать теги, в которых модель не уверена, тогда возвращается пустой list.