Skip to content

Nastiiasaenko/Media-agenda-Text-mining

Repository files navigation

Введение

Краткое описание работы и основные результаты можно посмотреть в этой презентации.

Основная практическая цель проекта - с помощью методов тематического моделирования и машинного обучения определить тематическое содержание новостных повесток.

Ход работы

Данные

Данные для исследования были собраны в ручную с помощью API VK и публичного API New York Times. Также был использован готовый датасет по американским новостям c сайта kaggle. В итоговую выборку попали 5 российских новостных изданий ( всего 567307 новостей для классификации) и около 15 американских новостных изданий( всего 674654 новостей).

Предобработка текстовых данных

Первый шаг - предобработка текстов( лемматизация, нормализация, токенизация). Пример preprocessing функции можно найти в файле preprocessor .ipynb

На следующем шаге было решено провести графовый анализ комбинаций слов, в итоге получились следующие графы по разным новостным корпусам:

alt text

alt text

Тематическое моделирование

В тематическом моделировании использовалась в основном классическая модель LDA, а также ее дополнение в R - Structural Topic Modelling.

Последовательная реализация LDA в следующих ноутбуках:

Структурное тематическое моделирование

Модель STM была реализована на корпусе новостей New York Times, где в качестве ковариатов была взята категориальная переменная ( категории - внешняя и внутренняя повестка) и время.

Реализация STM подробно представлена здесь.

Результаты

Для каждого кластера тем были получены wordclouds по каждой теме, по которым можно было бы судить о смысле той или иной темы, например: alt text

Темы далее группировались в более широкие кластеры: alt text

В дальнейшем брались специфические темы и сравнивалось их освещения в разных источниках: alt-text-1 alt-text-2

Полный процесс исследования и подробные результаты представлены в презентации, а также в тексте исследования( обращаться к автору).