最新见 https://github.com/yaoguangluo/ChromosomeDNA (目前分词速度每秒1630万中文字 峰值。)
用户使用如果遇纠纷 法院热线电话 12368, 公安电话号码110, 国外 请咨询当地法院 与公安部部门
<<100%(首创)个人著作权开源项目 软著登字第3951366号>>🔥26,000/ms word segment for text mining of NLP, POS, AI and Deep learning/每秒中文混合分词2200~3000万词汇的高精准确率快速神经网络分词包. 训练词意分析, 词感分析, 词境分析, 词灵分析并自由扩充词库 免费的官方互动展示页地址: http://tinos.qicp.vip/data.html
https://github.com/yaoguangluo/AOPM_VPCS_Theroy/blob/master/%E6%B5%8F%E9%98%B3%E5%BE%B7%E5%A1%94%E8%BD%AF%E4%BB%B6%E5%BC%80%E5%8F%91%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8%20%E8%AF%AD%E8%A8%80%E5%9B%BE%E7%81%B5%E5%B7%A5%E7%A8%8BAPI%E8%AF%B4%E6%98%8E%E4%B9%A6_10_6_1_5.doc
版本号:11.1.0: 随机测试文章来自 360八卦新闻推荐, 腾讯门户, 163门户等,总计110多篇文章, 约5万字, 算法问题导致错误分词1个(错误率十万分之三),词库缺少导致错误7个(错误率万分之三), <中文分析错误率小于亿分之一> 是一个艰巨的主题. 算法问题的扩充 时时更新在 HUB上.2019-05-25 22:48 M
版本号:11.1.0 快速歧义病句混合分词 支持 标点符号分离(因为标点特别多, 未做病句标点分析, 大家可以自由改 2019-05-14) 契形字符, 目前可混合识别 12国语言, 可混合分词70国语言(契形+中(简,繁)日,韩,象形, 无标点,歧义,绕口令,带病句快速混分高质量算法研究同时保证1800万+/每秒混分速度和99.9%分词准确率(deta的科研目标是准确率上99.999999% (中文分析错误率小于亿分之一)) 和商业闭源语料库版(65000+中文简体词汇和35万12国词汇). 20190504
准备添加德塔处理人名的函数. 因为标点符号不是德塔研发设计的, 引用添加在如下另外一工程链接:refer https://github.com/yaoguangluo/Data_Processor/tree/master/DP/NLPProcessor
德塔类人机器人 Tin 先生准备开始工作了.deta机器人Tin先生呢 在0.0.0.0, 到255.255.255.255 的ip集合中一个一个子html页面爬出中文信息进行分词扩充 自己词汇. 非常感谢 各类作文网, 文学论坛, 博客媒体, 新闻门户,提供了准确用词的文章,避免Tin先生分词工作犯错误.
中文分词算法原理已经公布: #21
1 : The first unrevised version has been completed: 12 professional level corpora of Chinese, Chinese pinyin, French, German, Korean, Japanese, Spanish, Russian, indonesia , Arabic, Vietnam and Thailand languages.
4 : La première édition n’a pas été modifiée: le corpus des langues chinoise, française, allemande, coréenne, japonaise, occidentale, russe et arabe.
5 : Die erste unänderte fassung der ersten ausgabe wurde abgeschlossen: in der mitte, frankreich, korea, japan, russland, dem 8. Sprachzentrum auf hoher ebene
6 : Завершено первое неисправленное издание: Китай, Франция, Германия, хан, Япония, западная, российская и арабская языки, восемь специализированных корпусов.
7 : Se han completado las primeras ediciones sin modificaciones: el corpus juris de 8 niveles profesionales en idiomas chino, francés, alemán, coreano, japonés, occidental, ruso y árabe.
8 : وقد اكتملت الطبعة الأولى من دون تعديل، وهي مجموعة من ثماني مجموعات متخصصة من اللغات الإسبانية والفرنسية والألمانية والورية واليابانية والغربية والروسية.
已完成功能: 词频统计接近光速:基于《线性科学最强的快排第6代的基础上作者进行以作者名字命名的小高峰过滤法修正算法,导致快排6的速度再翻2倍》。 (词频统计非线性排序算法已经更新了罗瑶光小高峰过滤快排三代. 2019-04-23)
已完成功能: 速度:每秒高达2200万(201904012)中文简体字准确分词。 因为通过国际SONAR最高认证,牺牲了程序执行时间十分之三的速度效率(自行修改去掉sonar认知模式可达3000万字分词每秒,性能比应该是世界第二,世界第一赠给高斯林先生,因为我用的是java,没办法)。 测试环境(win7, 64位, 16g ram,intel i5-7500) 20181208 功能作者: 罗瑶光
https://github.com/yaoguangluo/Deta_Parser/tree/master/wordSegment/org/tinos/test
已完成功能: 多核模式:可以自己写 parallelStream() 函数去实现,jdk8以上已经支持, CogsBinaryForestAnalyzer 支持海量多核多线程并发安全 。功能作者: 罗瑶光
https://github.com/yaoguangluo/Deta_Parser/blob/master/wordSegment/org/tinos/test/DemoPOS.java (https://blog.csdn.net/dreamz*************ls/88108568 https://my.oschina.*************135746) 道德清洗中. 对曾经提供负面的歧义病句的单位表示感谢 同时表示道歉,这里 链接过滤了.
注意1:该正面,褒义,负面,贬义,中性情感语料库有一定比重的表达作者的主观判断,比如思维误差,肯定环境,否定环境,哲学精神论等,如果引起不适,请慎重使用和借鉴修改。如果该情感库对第三方导致任何工程问题,作者不做任何解释和负法律责任。 注意2: 因为关键字和形谓词模型的应用不确定性,意识和社会形态的溯源问题以及字典理解的误差率,该情感语料库不做任何解释在基于法律与道德的临界线区分应用上。 注意3: 多语意识场合,该情态库不做任何情形分类评估标准,也不做引导性评估。
https://github.com/yaoguangluo/Deta_Parser/blob/master/wordSegment/org/tinos/engine/pos/imp/POSControllerImp.java 20190318 功能作者 罗瑶光
一种基于 ANN{Summing, Emotion, Motivation, Environment} * RNN{Covex, Euclid, POS} = DNN{LWA,Entropy} 罗氏读心术已经更新并进行了图灵算子优化。 20190314 功能作者: 罗瑶光
https://github.com/yaoguangluo/Deta_Parser/blob/master/sensingMap/org/tinos/sensing/test/DNNTest.java
http://tinos.qicp.vip/data.html (德塔ANN 维度功能)
http://tinos.qicp.vip/data.html (德塔RNN 向量功能)
http://tinos.qicp.vip/data.html (德塔DNN 读心功能)
http://tinos.qicp.vip/data.html (作文辅导功能)
商业开发将在官方网站展示:http://tinos.qicp.vip/
https://github.com/yaoguangluo/Deta_Parser/blob/master/neroMap/org/tinos/test/DemoTSLT.java
https://github.com/yaoguangluo/Deta_Parser/tree/master/wordSegment/org/tinos/ortho/fhmm/imp
Analyzer analyzer = new CogsBinaryForestAnalyzerImp(); //哈希森林索引 多核多线程安全 支持并发
analyzer.init();
String ss = "如果从容易开始于是从容不迫天下等于是非常识时务必为俊杰沿海南方向逃跑他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础 内科学作为临床医学的基础学科,重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";
List<String> sets = analyzer.parserString(ss);
int j=0;
for(int i = 0; i < sets.size(); i++){
System.out.print(sets.get(i)+" | ");
j++;
if(j>25) {
j=0;
System.out.println("");
}
}
如果 | 从 | 容易 | 开始 | 于是 | 从容不迫 | 天下 | 等于 | 是非 | 常识 | 时务 | 必 | 为 | 俊杰 | 沿 | 海南 | 方向 | 逃跑 | 他 | 说的 | 确实 | 在理 | 结婚 | 的 | 和 | 尚未 | 结婚 | 的 | 提高 | 产品 | 质量 | 中外 |
科学 | 名著 | 内科学 | 是 | 临床 | 医学 | 的 | 基础 | | 内科学 | 作为 | 临床 | 医学 | 的 | 基础 | 学科 |
, | 重点 | 论述 | 人体 | 各个 | 系统 | 各种 | 疾病 | 的 | 病因 | 、 | 发病 | 机制 | 、 | 临床 | 表现 |
、 | 诊断 | 、 | 治疗 | 与 | 预防 |
//Analyzer analyzer = new CogsBinaryForestAnalyzerImp(); //哈希森林索引 多核多线程安全 支持并发
Analyzer analyzer = new BinaryForestAnalyzerImp(); //哈希森林索引 单线程
//Analyzer analyzer = new FastAnalyzerImp(); //快速线性索引 单线程
//Analyzer analyzer = new PrettyAnalyzerImp(); //线性森林索引 单线程
//Analyzer analyzer = new BaseAnalyzerImp(); //一元线性索引
//Analyzer analyzer = new ScoreAnalyzerImp(); //森林打分索引
analyzer.init();
Map<String, String> pos = analyzer.getWord();
String ss = "他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础 内科学作为临床医学的基础学科,重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";
List<String> sets = analyzer.parserString(ss);
int j=0;
for(int i = 0; i < sets.size(); i++){
System.out.print(sets.get(i)+"/"+pos.get(sets.get(i)) +" ");
j++;
if(j>8) {
j=0;
System.out.println("");
}
}
他/人称代词 说/动词 的 的确/副词 实在/副词 理/形谓词 结婚/动词 的/结构助词 和/连词 尚未/副词
结婚/动词 的/结构助词 提高/动词 产品/名词 质量/名词 中外/名词 科学/名词 名著/名词 内科学/名词
是/动词 临床/名词 医学/名词 的/结构助词 基础/名词 内科学/名词 作为/动词 临床/名词 医学/名词
的/结构助词 基础/名词 学科/名词 ,/标点 重点/名词 论述/名词 人体/名词 各个/限定词 系统/名词
各种/名词 疾病/名词 的/结构助词 病因/名词 、/标点 发病/动词 机制/名词 、/标点 临床/名词
表现/名词 、/标点 诊断/名词 、/标点 治疗/动词 与/连词 预防/动词
应用方法:本人用FNLP函数将文章中的词语将我分出词进行词性标注,得到的标注如果在我的词库里面没有出现,于是扩充在我的词库。特此声明。
特别感谢有道翻译。
尚无
尚无
LetWang(神州泰岳)在扩充词库量的方法上提出了很多新颖的意见。 1 建议我向搜狗等商业公司买词库。 2 建议我和开源的分词公司合作。 3 建议我招聘相关人员录入词库工作。