-
Notifications
You must be signed in to change notification settings - Fork 0
/
example.txt
32 lines (28 loc) · 1.68 KB
/
example.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
УЧЕТ ОМОНИМИЧНЫХ СЛОВ, КОГДА ЛЕММАТИЗАТОР ВЫДАЕТ НЕСКОЛЬКО ВАРИАНТОВ. ДОПУСТИМ В КОРПУСЕ ВСТРЕТИЛОСЬ:
простой завода 100
простой завод 10
простоявший завод 8
простых заводов 6
простои заводов 25
простой 1000
простые 300
простого 400
простому 200
простояли 300
простои 50
завод 500
простой_омоним = [простой_сущ простой_прил простоять_гл]
ПОСЛЕ ЛЕММАТИЗАЦИИ:
простой_сущ завод_сущ (100+10)/3+25 = 61.6
простой_прил завод_сущ (100+10)/3+6 = 42.6
простоять_гл завод_сущ (100+10)/3+8 = 44.6
простой_сущ (100+10)/3+25+1000+50 = 1111.6
простой_прил (100+10)/3+6+1000+300+400+200 = 1942.6
простоять_гл (100+10)/3+8+1000+300 = 1344.6
завод_сущ 100+10+8+6+25+500 = 649
score = Wij/(Wi*Wj), где Wij - сумма всех возможных пар лексем для данной биграммы, Wi и Wj - сумма всех
возможных лексем слова, входящего в данную биграмму
простой_омоним завод_сущ = (61.6+42.6+44.6)/((1111.6+1942.6+1344.6)*649) = 5.212235358207373e-05
простоять_гл завод_сущ = 44.6/(1344.6*649) = 5.110896132610108e-05
простой_прил завод_сущ = 42.6/(1942.6*649) = 3.3789480747689824e-05
простой_сущ завод_сущ = 61.6/(1111.6*649) = 8.538615890364174e-05