Low resource machine translation

Requirements

For compute TER: pip install python-Levenshtein

Description

apply_bpe.sh : tokenise english corpus and apply BPE to both english and tamil corpuses. preprocess.sh : binarise datasets for fairseq train.sh : run training generate.sh : generate translation result and compute BLEU score compute_ter.py: generate translation and compute TER score

Examples of translation can be found in generation_results/EP/EP and generation_results/EP/WMT

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
Corpus		Corpus
Data_clean_skripts		Data_clean_skripts
bpe_model		bpe_model
data-bin		data-bin
generation_results/EP		generation_results/EP
voc		voc
.gitignore		.gitignore
Microsoft_Azure_GPU.md		Microsoft_Azure_GPU.md
README.md		README.md
colab_tamil_train.ipynb		colab_tamil_train.ipynb
compute_ter.py		compute_ter.py
generate.sh		generate.sh
preprocess.sh		preprocess.sh
train_2_1.sh		train_2_1.sh
train_2_2.sh		train_2_2.sh
train_3_1.sh		train_3_1.sh
train_4_1.sh		train_4_1.sh
trans_train.sh		trans_train.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Low resource machine translation

Requirements

Description

About

Releases

Packages

Contributors 3

Languages

GlaucoLorenzut/low-resource-machine-translation

Folders and files

Latest commit

History

Repository files navigation

Low resource machine translation

Requirements

Description

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages