This project simple prediction to next word and correct word on Thai language.
- keras 2.2.4
- tensorflow-gpu 1.13.1
- pythainlp 2.0.5
-
Cleansing dataset
-
Word segmentation using newmm on PyThaiNLP module
-
Train-Test split (0.3)
Number of dataset: 562403 Number of train set: 393682 Number of test set: 168721
-
Define model
Using rule-base work with ML model
-
Word segmentation input text (need same with modeling step) for prediction next char.
-
Case-1: The edit text is more appropriate.
-
Case-2: The original input is more appropriate.
[case-1] input >>> 'สุนัข| |เป็น|สัตว์|มี|เขี้ยว|ชนิด|เชื่อง|ที|ถูก|คัดเลือก|ผสม|พั' edit >>> 'สุนัข| |เป็น|สัตว์|มี|เขี้ยว|ชนิด|เชื่อง|ที|ถูก|คัดเลือก|ผสมพั' [case-2] input >>> 'สุนัข| |เป็น|สัตว์|มี|เขี้ยว|ชนิด|เชื่อง|ที|ถูก|คัดเลือก|ผสมพันธุ์' edit >>> 'สุนัข| |เป็น|สัตว์|มี|เขี้ยว|ชนิด|เชื่อง|ที|ถูก|คัดเลือกผสมพันธุ์'
-
-
Predicting of 2 input (original input and text edit), choose 10 possibility from each result of input and the prediction next character of each possibility until the found character '|'.
-
Applying results (20 result) to analyze according to the words in the Thai dictionary. Remove words that are sub-set of other words, because words that are longer will be more appropriate.
['หนึ่ง', 'ประการหนึ่ง'] >>> ['ประการหนึ่ง']
Correct result: get from enter the incorrect text.
Predictive result: get from enter the appropriate text.
Text: ในทางด้านสังคมศาสตร์ปัญหาประการหนึ่
Correct: ['ประการหนึ่ง']
Predictive: []
Text: เจอร้านอาหารอร่อยๆ ถือเป็นความสุข
Correct: []
Predictive: ['สร', 'พร', 'ขา']
Text: คู่มือการติดตามและประเมินผลการจัดกา
Correct: ['กาล', 'กาย', 'จัดการ']
Predictive: []
Text: สุนัข เป็นสัตว์มีเขี้ยวชนิดเชื่องทีถูกคัดเลือกผสมพั
Correct: ['พัก', 'พัด', 'พัน', 'พัฒนา', 'พัง', 'พัช']
Predictive: []
Text: เรียนรู้เกี่ยวกับจิตวิทยาที่อยู่เบื้องหลั
Correct: ['หลับ', 'หลัด', 'หลัก', 'หลั่น', 'เบื้องหลัง']
Predictive: []
Text: 'แมว🐱' เป็นสัตว์เลี้ยงลูกด้วยนม อยู่ในตร
Correct: ['ตรง', 'ตระ', 'ตรู', 'ตรม']
Predictive: []
Text: ข้าวมันไก่ เป็นอาหารคาวของไทยและจีน คาดว่าอาหารชนิดนี้ได้รับการเผยแพร่
Correct: []
Predictive: ['อม', 'การ', 'งาน', 'วง']