基于 TensorFlow & PaddlePaddle 的通用序列标注算法库(目前包含 BiLSTM+CRF
和 IDCNN+CRF
,更多算法正在持续添加中)实现中文分词(Tokenizer / segmentation)、词性标注(Part Of Speech, POS)和命名实体识别(Named Entity Recognition, NER)等序列标注任务。
- 通用的序列标注:能够解决通用的序列标注问题:分词、词性标注和实体识别仅仅是特例。
- Tag schema free: 你可以选择你想用的任何 Tagset。依赖于 tokenizer_tools 提供的编码、解码功能
- current TF Metrics is not launch on pypi, but seq2annotation depends on it, so seq2annotation currently can't packaged as python package on pypi
- https://www.cnblogs.com/Determined22/p/7238342.html
- http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/
- http://www.voidcn.com/article/p-kvrmknrl-bgh.html
- 深受 Guillaume Genthial 的 tf_ner 项目的影响
From http://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/