Краткое описание работы и основные результаты можно посмотреть в этой презентации.
Основная практическая цель проекта - с помощью методов тематического моделирования и машинного обучения определить тематическое содержание новостных повесток.
Данные для исследования были собраны в ручную с помощью API VK и публичного API New York Times. Также был использован готовый датасет по американским новостям c сайта kaggle. В итоговую выборку попали 5 российских новостных изданий ( всего 567307 новостей для классификации) и около 15 американских новостных изданий( всего 674654 новостей).
Первый шаг - предобработка текстов( лемматизация, нормализация, токенизация). Пример preprocessing функции можно найти в файле preprocessor .ipynb
На следующем шаге было решено провести графовый анализ комбинаций слов, в итоге получились следующие графы по разным новостным корпусам:
В тематическом моделировании использовалась в основном классическая модель LDA, а также ее дополнение в R - Structural Topic Modelling.
Последовательная реализация LDA в следующих ноутбуках:
Модель STM была реализована на корпусе новостей New York Times, где в качестве ковариатов была взята категориальная переменная ( категории - внешняя и внутренняя повестка) и время.
Реализация STM подробно представлена здесь.
Для каждого кластера тем были получены wordclouds по каждой теме, по которым можно было бы судить о смысле той или иной темы, например:
Темы далее группировались в более широкие кластеры:
В дальнейшем брались специфические темы и сравнивалось их освещения в разных источниках:
Полный процесс исследования и подробные результаты представлены в презентации, а также в тексте исследования( обращаться к автору).