Skip to content

Online Segmentation ans POS tagger with Average Perceptron

Notifications You must be signed in to change notification settings

hitwsl/OnlineLabel

 
 

Repository files navigation

目前系统提供了分词、词性标注训练和测试功能,但是不提供训练语料
系统测试时支持多线程,默认设置为单线程使用,可在调用时设置thread参数来设置线程数
分词训练和测试命令可参考目录下的seg.train.sh和seg.test.sh文件
词性标注训练和测试命令可参考目录下的pos.train.sh和pos.test.sh文件
目前训练算法只提供Average Perceptron,后续将增加新的训练算法
在每次迭代的时候,都会保存当前模型,并使用开发集对当前模型进行性能测试,用户可根据训练的log文件直接选择性能最优的模型

在sample.java文件中是调用相关分词和词性标注程序的示例
所有输入输出文件均使用UTF-8编码

文件说明:
data目录:
(1)pos
	conll06.pos.dic:conll06训练语料中抽取的词性标注词典,词典获取的方法是将语料中出现次数大于等于3次的词语及相关词性保存为词典
	dev.conll06.pos.gold:conll06语料词性标注开发集gold文件,在训练的时候做为模型的性能评价文件
	test.conll06.seg:conll06语料词性标注测试集测试文件
	test.conll06.pos:conll06语料词性标注测试集gold文件
	pos.tran.sample:词性标注训练语料格式样例
(2)seg
	pku.seg.dic: 北大词典
	pku.test.gold:pku语料测试集gold文件
	pku.test:pku语料测试集文件
	seg.train.sample:分词训练语料格式样例
model目录:
	conll06.pos.model:使用conll06语料训练的词性标注模型,目前模型在开发集上的性能为94.3%,测试集性能为93.7%
	pku.seg.model:使用pku语料训练的分词模型,目前模型在测试集上分词性能: P: 96.36% R: 96.23% F:96.29%

lib目录:
	包含引用的jar包

config目录:
	存放相关的配置文件。目前只包含log4j的配置文件。

log目录:
	存放系统运行的log文件,词性标注日志文件为pos.log,分词日志文件为seg.log

程序中使用的词性标注特征:
词语的n_gram特征:	
	w_i (i = -2,-1,0,1,2)
	w_i,w_i+1 (i = -1,0)
	w_-1,w_1
词边界特征:
	last_char(w_-1)w_0
	first_char(w_0)w_1
	其中first_char和last_char表示词语的第一个和最后一个字
词前后缀信息:
	first_char(w_0)last_char(w_0)
	prefix(w_0,i) (i =1,2,3)
	suffix(w_0,i) (i = 1,2,3)
	prefix代表词长度为i的前缀,suffix代表词长度为i的后缀
词长度信息:
	len(w_0)
	词的长度大于五的时候,统一使用五表示
词典信息:
	postag_lexicon(w_0)
	表示词语在词典中的候选词性
叠字信息:
	词语中每一个字和词语中的第一个字的组合
	词语中的每一个字和词语的最后一个字的组合
	词语中的第i个字和第i+1个字是否相同
	词语中的第i个字和第i+2个字是否相同
词语类别信息:
	digit,letter,punctuation以及other

程序中使用的分词特征:
字符n_gram特征:
	c_i (i = -2,-1,-,1,2)
	c_i,c_i+1 (i = -2,-1,0,1)
	c_i,c_i+2 (i = -2,-1,0)
	c_i,c_i+1,c_i+2 (i = -1)
叠字信息:
	dup(c_i,c_i+1): c_i和c_i+1是否是相同字
	dup(c_i,c_i+2): c_i和c_i+2是否是相同字
	chartype(c_0): c_0的字符类别,包括字母、标点、数字和其他
	prefix(c_0,D): 以c_0开始的在词典D中的最长前缀的长度
	middle(c_0,D): c_0位于中间的存在于词典中的最长子串的长度
	suffix(c_0,D): 以c_0结束的存在于词典中的最长后缀的长度
	

About

Online Segmentation ans POS tagger with Average Perceptron

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published