தமிழ் இணையக் கல்விக்கழகம் பழந்தமிழ் இலக்கியங்களுக்கு இலக்கணக் குறிப்பு அளித்து த.இ.க. இணைய தளத்தில் பதிவேற்றம் செய்துள்ளது.
இச்சொல் வங்கி ஆய்வு நோக்கத்திற்காகவும் தமிழில் மென்பொருள் உருவாக்குவோருக்குப் பயன்தரும் வகையில் 200 மில்லியன் (200 MILLION) தமிழச் சொற்களுக்குத் தற்கால இலக்கண முறைபடி இலக்கணக் குறிப்புகள் அளித்து ஆய்விற்கான தரவுதளமாக அமைக்கப்பட்டுள்ளது.
மொழியியல் (LINGUISTICS) அடிப்படையில் இலக்கணக் குறிப்பு அளிப்பதால் மாணவர்களும், தமிழில் ஆய்வு மேற்கொள்வோரும், தமிழில் மென்பொருள் உருவாக்குவோரும் மற்றும் பிறரும் இத்தரவுதளத்தை ஆய்விற்குப் பயன்படுத்தலாம்.
200 மில்லியன் சொற்களை சேர்ப்பது இலக்கு.
இது வரை 3,20,448 சொற்கள் சேர்க்கப் பட்டுள்ளன.
தொடர்ந்து புது சொற்கள் இலக்கணக் குறிப்புகளுடன் சேர்க்கப் படும்.
தமிழகத்தில்_NNP( தமிழகம் ,N,il-LOC) தஞ்சை_NNP( தஞ்சை ,N) , திருச்சி_NNP(திருச்சி,N) , நெல்லை_NNP(நெல்லை,N) முதலிய_JJ(முதலிய,ADJ) பகுதிகள்_NN(பகுதி,N,,pl) வேளாண்மையில்_NN(வேளாண்மை,N,il-LOC) சிறப்புடன்_NN(சிறப்பு,N,utanY-SOC) விளங்குகின்றன_V_VM_VF(விளங்கு,V,PRESENT,pl,3,n) .
This repo is to release the Annotated Corpus for 200 million tamil words.
Currently there are have 3,20,448 words tagged as total.
Linguistics Tags are used here to annotate the words.
More words are being tagged and will be released periodically.
Check the two files
NOTEPAD/0001-KEETRU.txt
NOTEPAD/0002-DAILYTHANTHI.txt
for entire content in plaintext format.
- Add explanation for the Tags used