Skip to content

Latest commit

 

History

History
171 lines (89 loc) · 18.1 KB

seminar-7.md

File metadata and controls

171 lines (89 loc) · 18.1 KB
# Корпусные приложения: N-gram Viewer, SketchEngine, AntConc ### N-gram Viewer **N-грамма** — последовательность из _n_ слов. Последовательность из двух последовательных элементов часто называют _биграмма_, последовательность из трёх элементов называется _триграмма_. Не менее четырёх и выше элементов обозначаются как_ N-грамма_, N заменяется на количество последовательных элементов. Использование данных при поиске и построении графиков ограничено N-граммами: для построения графика N-грамма должна встречаться в соответствующем корпусе не менее 40 раз. Частотность – процент искомой единицы от числа соответствующих единиц \(слово относительно всех слов, биграммы относительно всех биграмм и т.д.\). ##### О кнопках: **case-insensitive** – при установке флажка в окне система не различает заглавные и строчные буквы; **between ... and ...** – между ... и... \(окно указания временного периода, вводится год начала исследования и конца исследования\); **from the corpus** – из корпуса \(выбрать из выпадающего меню\) ![](https://lh5.googleusercontent.com/B06ONokWApeu-6bIbUx73WryIxGsdQz0-hZx-30K-bXHkP2EpGQL6I9YPQ8A7R3yfZuKFBCo9fJ90VaVl3cg-Vbrun5NlUs_-m4yrA0ODLkpxqXxbBLv7CGMNmsFLEpo79K25LK0wc2AADT0xQ) **with smoothing** – со сглаживанием \(выбрать из выпадающего меню\); **search lots of books** – искать в массивах книг \(кнопка команды на поиск и построение графика\). Кроме построения графиков, система представляет ссылки к текстам, найденным по запросам. Как правило, это библиографические описания книг и фрагменты текстов с выделением в них цветом заданных N-грамм. В некоторых случаях доступен полный текст книги в графическом формате. ##### Запросы Чтобы получить сравнить частотности нескольких единиц, запишите их через запятую. ![](/assets/ngrams1.png) По умолчанию поиск осуществляется с учетом регистра: если вы хотите это изменить, поставьте соответствующий флажок. По умолчанию осуществляется поиск конкретных словоформ \(как _Точный поиск_ в НКРЯ\), если вы хотите искать все словоформы, припишите \_INF в конце слова \(например: птица\_INF\) ![](/assets/ngrams2.png) Если вместо одного из слов поставить астериск, то буду показаны 10 самых частотных биграмм со вторым словом: ![](/assets/ngrams3.png) Искать можно не только конкретные слова, но их грамматические характеристики. ![](/assets/ngrams4.png) ![](https://lh4.googleusercontent.com/0diI5K1jJbVH8jdloY52FldZp3KHF26zQ9QumAsg7NCh6QxQqbe2JTnFcJcXVoLujYn0mV7pXK9IAOpJkl8pmdHCvv1Mznrn6yKDF3cDU6W1YRLRI1mpPuFNeCWKhyAacPfjkAGSlKkoJpt0QQ) ##### Cравнение Google NGrams и НКРЯ \(данные за 2012 год\) | Характеристика | НКРЯ | Google books \(rus\_2012\) | | :--- | :--- | :--- | | Объем корпуса \(число документов\) | 85 996 | 591 310 | | Число словоупотреблений | 229 968 798 | 67 137 666 353 | | Единицы частоты употребления N-грамм | IPM \(Instances per million – число употреблений N-граммы на миллион словоупотреблений\) | Проценты \(число употреблений N-граммы на сто употреблений последовательностей той же длины\) | | Система письма | Большинство текстов основного корпуса частично представлены в современной системе письма, но некоторая часть текстов – в старой орфографии | Тексты представлены как в современной , так и в старой системе письма. Однако при поиске текстов в старой системе письма имеются проблемы | | Операции над графиками | невозможны | возможны | | Возможности отбора материала | создание пользовательских подкорпусов по разным критериям | Отбор материала и построение графиков осуществляется только по году издания. | #### Операции над графиками **Суммирование \(сложение\) графиков** \(стол+стола+столов\) Операция позволяет суммировать значения каждой точки двух или более графиков. Для осуществления операции поисковые слова вводятся в окно через знак +, например: лошадь + лошади +лошадей. **Вычитание графиков** \(перст-палец\) Операция позволяет вычитать из значения каждой точки графика, значение той же по горизонтали точки другого графика. С помощью этой операции можно представить, насколько частота встречаемости одной N-граммы больше \(меньше\) другой, и как это различие менялось во времени. Для осуществления операции поисковые слова вводятся в окно через знак «-», например, _вежливость-корректность_. Все выражение следует взять в круглые скобки: \(вежливость-корректность\). При этой операции вся кривая или её часть может находиться в области отрицательных значений. **Умножение графиков** \(марксизм\*100\), марксизм Операция позволяет умножать на _n_ значения всех точек графика. Операция умножения позволяет сделать сопоставимым поведение кривых, значения которых отличаются на несколько порядков. Слова в поисковое окно вводятся следующим образом: слово знак «\*» множитель, например, лемматизация\*100. **Деление графиков** \(сапоги/валенки\),сапоги,валенки Делить значение каждой точки графика на значение точки другого графика, имеющий ту же координату горизонтальной оси. Операция позволяет установить, во сколько раз один термин встречается чаще другого.Слова в поисковое окно вводятся следующим образом: слово – делимое, знак «/», слово – делитель, например сапоги/валенки. Примечание. Операцию деления нельзя использовать по тому же типу, что операцию умножения. Выражение Время/100 означает, что система покажет, во сколько раз в текстах БД слово «время» встречается чаще \(реже\) чем цифра 100, а не уменьшит результат в сто раз. Это делает невозможной операцию вычисления средней встречаемости нескольких терминов. ### SketchEngine [SketchEngine](https://the.sketchengine.co.uk/) – система, позволяющая изучать сочетаемость слов на основе корпусов разных языков, причем не просто по соседству в тексте, а по грамматическим отношениям. ![](https://lh4.googleusercontent.com/p-VK8YogigRphmp50l_Wf1EQ8ThqG-1lj0pUkPbiUn_eEq6tRuxWPMODggsE0HPA83FqFvnUji-ot1eK-CWH5nQZZS7iNW_VzOTsIRH0gQ6_XCseYJTtjoPz0DV_-W1OvqB4lvsX) ![](https://lh6.googleusercontent.com/DV_lyaSvjSsXJ2iIypqAoNdvSXp_3BUYgaLq_0AtkecyFlBNOV32VdCwY9qw0EPr1Pjsm7aspMotUGaVUJ9xKf_XH9WA7sUYjZJdSvI-0oTQ2fA7Q_AaKpWJKklT3e9cYFx8fxoK) ![](https://lh4.googleusercontent.com/oROllQJRX_0FMfS8EuK8PmIV0P7Q8o226usTndb1s9G3XDRMz1sLS-G-JPNmt_sBFT-r8H7pIb-FfsTY-rVcK366uavKuU19ov97vZDVxxQzjQu6sz3fUf_eImpdpOG2lpIwGdfA) ### AntConc [Download AntConc](http://www.laurenceanthony.net/software/antconc/) С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах. Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний \(в том числе терминологических\), выборок к тематическим группам слов. Проще говоря, это программа, которая позволяет создать собственный корпус. Чтобы загрузить файл в меню _File_ нажимаем «Open File» \(файл должен быть в формате .txt/.xml/.html\). 1.Открываем во второй сверху строке меню кнопку «Word List» \(вторяя слева\) и нажимаем кнопку «Start» \(внизу ближе к левому краю\). Программа выстроит все словоформы текста в порядке частотности 2.Можно сортировать и по другим критериям. Если вместо «Sort by Freq» \(в самом низу\) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов. 3.Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от _я_ до _а_. 4.Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне _Concordance_. **Конкорданс **– это список всех употреблений заданного языкового выражения \(например, слова\) в контексте, возможно, со ссылками на источник. \(В НКРЯ нечто похожее было тогда, когда мы выводили в KWIC.\) Если открыто окно _Concordance_, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах. ![](/assets/antconc1.png) Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы: например, пишем пункт — выйдет пункта, пункты и т. п. Кроме того можно использовать следующие специальные символы: ![](/assets/antconc2.png) ![](/assets/antconc3.png) ![](/assets/antconc5.png) Вы можете сохранить результаты вашего поиска в отдельный файл: во вкладке _File_ –> «Save Output». **График конкорданса \(Concordance Plot\). **В этом инструменте все адреса для каждого элемента поиска представлены в виде «штрих-кода», указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент. Он также может быть использован для определения места, где сталкиваются искомый элемент и кластер. Во вкладке _File View_ вы можете посмотреть расширенный контекст, в котором встречается искомое слово. ![](/assets/antconc6.png) **Кластеры \(Clusters\). **Инструмент _кластеры_ используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна. С помощью функции _Cluster Size_ мы можем изменять длину искомой последовательности. _Search Term Position_ задаёт позицию искомого слова внутри N-граммы. ![](/assets/antconc7.png) **Коллокации \(Collocates\)**. Кластеры показывают N-граммы, которые встречаются в тексте \(т.е. слова, которые стоят рядом друг с другом непосредственно\), тогда как в списке коллокаций мы видим слова, которые статистически часто встречаются с искомым словом \(слова, находящиеся в «окне поиска» – _Window Span_\). Freq\(R\) насколько часто встречается данное слово справа от искомого Freq\(L\) насколько часто встречается данное слово слева от искомого Freq насколько часто встречается данное слово вместе с искомым Stat вероятность того, что данные слова встретятся вместе относительно того насколько часто они встречаются по отдельности. ![](/assets/antconc8.png) **Список слов. **Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе. **Список ключевых слов. **В дополнение к созданию списка слов, с помощью _AntConc_ можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми \(или редкими\) в целевых файлах. ### Полезные ссылки [NGram Viewer User Guide](http://gf.nsu.ru/www/wp-content/uploads/2015/11/Google-Books-NGram-Viewer.pdf) [Sketch Engine User Guide](https://www.sketchengine.co.uk/user-guide/user-manual/) [Advanced Usage of Google NGram Viewer](https://books.google.com/ngrams/info#) [AntConc User Guide](http://www.laurenceanthony.net/software/antconc/resources/help_AntConc321_english.pdf) [AntConc Help](http://www.laurenceanthony.net/software/antconc/releases/AntConc352/help.pdf) [AntConc handout](https://hfroehlich.files.wordpress.com/2014/05/corpus-linguistics-with-antconc-hgf-handout.pdf) [Corpus Analysis with AntConc](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)[ ](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)\(tutorial\) [Sample Corpus](https://www.dropbox.com/s/cmt0m8wxcj78hh8/sample_corpus.txt?dl=0)