Entities are (ལུང་ཁུངས།
, ལུང་དེའི་མཛད་པ་པོ།
, ལུང་ཚིག་དངོས།
) and annotation scheme used for this task is BIO
.
Note
: We have used Pybo for work tokenization and lighttag for text annotation.
Model | Test f1 |
---|---|
Memorization_v1 | 2.2032 |
Bi-LSTM_v2 | 34.56 |
Bi-LSTM_CRF_v2 | 31.92 |
Bi-LSTM_CRF_Word2Vec_v2 | 54.09 |
Bi-LSTM_CRF_Word2Vec_v3 | 63.41 |
Note
:
- F1-score is based on mertic used for CoNLL-2000. We have used seqeval package for measuring the F1-score.
v2
andv3
model trained for30
and50
epochs respectively.
- Training loss
- Training loss is much higher for
Bi-LSTM_CRF_Word2Vec_v3
at the end
- Training loss is much higher for
- Validation loss
- Validation loss is very stable for
Bi-LSTM_CRF_Word2Vec
models over the steps
- Validation loss is very stable for
- Validation F1
- Validation f1 is very stable for
Bi-LSTM_CRF_Word2Vec
models over the steps
- Validation f1 is very stable for
Output 1:
Word ||True ||Pred
==============================
....
འོ : O O
བསྡོགས་ : O O
དུས་འཁོར་ : B-ལུང་ཁུངས། B-ལུང་ཁུངས།
རྩ་རྒྱུད་ : O I-ལུང་ཁུངས།
ལ : O O
ས : O O
བསྡོགས་ : O O
སོ་སོ : B-ལུང་ཚིག་དངོས། B-ལུང་ཚིག་དངོས།
ར་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
སྡུད་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དང་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསམ་གཏན་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དང་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསྡོགས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
སྲོག་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
རྩོལ་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དེ་བཞིན་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
འཛིན་པ་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དང་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསྡོགས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
རྗེས་སུ་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དྲན་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དང་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
ཏིང་ངེ་འཛིན : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསྡོགས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
སྦྱོར་བ་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
ཡན་ལག་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དྲུག་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
ཅེས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བྱ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསྡོགས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
ཞེ : O O
ས་ : O O
....
Output 2:
Word ||True ||Pred
==============================
....
ཁུངས་ : O O
ནི : O O
བསྡོགས་ : O O
དམ་ཚིག་ : B-ལུང་ཁུངས། B-ལུང་ཁུངས།
ལྔ་ : I-ལུང་ཁུངས། I-ལུང་ཁུངས།
པ་ : O I-ལུང་ཁུངས།
ལ : O O
ས : O O
བསྡོགས་ : O O
དེ : B-ལུང་ཚིག་དངོས། B-ལུང་ཚིག་དངོས།
ས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
ཀྱང་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
རང་རིག་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
མ་ལ་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
འཁྱུད : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསྡོགས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
མི་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
ནུས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསམ་གཏན་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
དག་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
གི : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
ས་ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བྱ : I-ལུང་ཚིག་དངོས། I-ལུང་ཚིག་དངོས།
བསྡོགས་ : O I-ལུང་ཚིག་དངོས།
ཞེ : O O
ས་ : O O
....
Note
:
- The outputs are from the best model (highest
test_f1
score) - In some cases model produced more accurate tags than the annotattor.