Skip to content

Tamil-Virtual-Academy/Tamil-Annotated-Corpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tamil-Annotated-Corpus - Work in Progress

அறிமுகம்

தமிழ் இணையக் கல்விக்கழகம் பழந்தமிழ் இலக்கியங்களுக்கு இலக்கணக் குறிப்பு அளித்து த.இ.க. இணைய தளத்தில் பதிவேற்றம் செய்துள்ளது.

இச்சொல் வங்கி ஆய்வு நோக்கத்திற்காகவும் தமிழில் மென்பொருள் உருவாக்குவோருக்குப் பயன்தரும் வகையில் 200 மில்லியன் (200 MILLION) தமிழச் சொற்களுக்குத் தற்கால இலக்கண முறைபடி இலக்கணக் குறிப்புகள் அளித்து ஆய்விற்கான தரவுதளமாக அமைக்கப்பட்டுள்ளது.

மொழியியல் (LINGUISTICS) அடிப்படையில் இலக்கணக் குறிப்பு அளிப்பதால் மாணவர்களும், தமிழில் ஆய்வு மேற்கொள்வோரும், தமிழில் மென்பொருள் உருவாக்குவோரும் மற்றும் பிறரும் இத்தரவுதளத்தை ஆய்விற்குப் பயன்படுத்தலாம்.

200 மில்லியன் சொற்களை சேர்ப்பது இலக்கு.

இது வரை 3,20,448 சொற்கள் சேர்க்கப் பட்டுள்ளன.

தொடர்ந்து புது சொற்கள் இலக்கணக் குறிப்புகளுடன் சேர்க்கப் படும்.

எ.கா:

தமிழகத்தில்_NNP( தமிழகம் ,N,il-LOC) தஞ்சை_NNP( தஞ்சை ,N) , திருச்சி_NNP(திருச்சி,N) , நெல்லை_NNP(நெல்லை,N) முதலிய_JJ(முதலிய,ADJ) பகுதிகள்_NN(பகுதி,N,,pl) வேளாண்மையில்_NN(வேளாண்மை,N,il-LOC) சிறப்புடன்_NN(சிறப்பு,N,utanY-SOC) விளங்குகின்றன_V_VM_VF(விளங்கு,V,PRESENT,pl,3,n) .

Introduction

This repo is to release the Annotated Corpus for 200 million tamil words.

Currently there are have 3,20,448 words tagged as total.

Linguistics Tags are used here to annotate the words.

More words are being tagged and will be released periodically.

Check the two files

NOTEPAD/0001-KEETRU.txt
NOTEPAD/0002-DAILYTHANTHI.txt

for entire content in plaintext format.

TODO

  • Add explanation for the Tags used

Contributors

James, Tamil Virtual Academy - Lead

Nithyatharsni T - Tamil Virtual Academy - Tagger

T Shrinivasan - Publishing at this github repo

About

Annotated Corpus for Tamil Words

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published