Skip to content

Репозиторий бакалаврской дипломной работы на тему "Микродиахроническое исследование значений русских приставок методами дистрибутивной семантики"

Notifications You must be signed in to change notification settings

eaklykova/prefixes_in_diachrony_2022

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Microdiachronic Study of the Russian Prefixes with Distributional Semantic Models: Bachelor's Thesis

Author: Elizaveta Klykova

National Research University Higher School of Economics, School of Linguistics, 2022

If you have any questions, feel free to contact me at eaklykova@edu.hse.ru

Distributional semantics has a broad area of applications, from information retrieval to machine translation and text generation. In recent years, word embeddings have been actively used for the task of Semantic Change Detection (SCD). However, no attempts have been made so far to solve this task for units smaller than words, i. e. morphemes. In this study, we attempt to establish whether traditional SCD methods can be applied to Russian verbal prefixes. For each prefix, we calculate the degree of its change based on vector representations of the verbs that contain it. The methods we test include word2vec, fastText, and ELMo, as well as the “grammar profiles” method that appeared only recently. We analyze changes in prefixes using information about their compatibility and polysemy, as well as the frequency of the verbs containing them. The results show that traditional methods of detecting diachronic shifts in words are not suitable for a similar task on prefixes, since Russian verbal prefixes are characterized by a complex system of relationships between compatibility, frequency, and polysemy.

Методы дистрибутивной семантики применяются для широкого спектра задач – от информационного поиска до машинного перевода и генерации текста. В последние годы словесные эмбеддинги начали активно использоваться в задаче автоматического выявления семантических изменений в словах (Semantic Change Detection, SCD). Однако до сих пор не предпринималось попыток решения этой задачи на единицах более низкого порядка, т. е. морфемах. В настоящем исследовании предпринимается попытка выяснить, применимы ли традиционные методы SCD к русским глагольным приставкам. Для каждой приставки мы рассчитываем степень ее изменения, опираясь на векторные представления содержащих ее глаголов. Рассмотренные методы включают модели word2vec, fastText и ELMo, а также появившийся не так давно метод грамматических профилей. Мы анализируем изменения в приставках, используя информацию об их сочетаемости и многозначности, а также частотности содержащих их глаголов. Результаты показывают, что традиционные методы выявления диахронических сдвигов в словах не подходят для аналогичной задачи на приставках, поскольку русские глагольные префиксы характеризуются сложной системой взаимоотношений между сочетаемостью, частотностью и полисемией.

https://www.hse.ru/en/ba/ling/students/diplomas/635733901

About

Репозиторий бакалаврской дипломной работы на тему "Микродиахроническое исследование значений русских приставок методами дистрибутивной семантики"

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published