VnCoreNLP: https://github.com/vncorenlp/VnCoreNLP
$ pip install py4j
CopyVnCoreNLP.jar
,vncorenlp.py
andmodels
to your project in the same directory
See example.py
from vncorenlp import VnCoreNLP
txt = 'học sinh học sinh học'
# Init & load model
vncore_nlp = VnCoreNLP(annotators="wseg pos ner parse")
# Use tokenize only
print(vncore_nlp.tokenize(txt, str=True))
print()
print(vncore_nlp.tokenize(txt, str=False))
print()
print(vncore_nlp.extract(txt))
Output:
học_sinh học_sinh học
['học_sinh', 'học_sinh', 'học']
[
['học_sinh', 'N', 'O', '3', 'sub'],
['học_sinh', 'N', 'O', '1', 'nmod'],
['học', 'V', 'O', '0', 'root']
]
- Clone or Download VnCoreNLP
$ git clone https://github.com/vncorenlp/VnCoreNLP
- Build VnCoreNLP.jar from VnCoreNLP project
- Copy Tokenizer.java to VnCoreNLP project
$ cp Tokenizer.java /path/VnCoreNLP/src/main/java/vn/
- Build jar for
Tokenizer.java
main class
- Copy ./models dir and new .jar file to this repository