Java 中文分词组件 word 分词 v1.0 发布了

杨尚川
 杨尚川
发布于 2014年05月01日
收藏 63

word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。

     

word分词提供了简单易用的分词接口,支持Lucene、Solr、ElasticSearch,支持用户显式指定分词算法,支持用户自定义配置文件、自定义用户词库,支持自动检测词库变化。此外,还提供了分词效果评估功能和词向量体验功能。 

     

下载地址

源码地址

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:Java 中文分词组件 word 分词 v1.0 发布了
加载中

最新评论(9

杨尚川
杨尚川

引用来自“bright89”的评论

没有词性标注的吗
1.0版本没有词性标注
bright89
bright89
没有词性标注的吗
杨尚川
杨尚川

引用来自“杨尚川”的评论

Java中文分词组件word-1.0下载地址更新为:http://pan.baidu.com/s/1dDziDFz

引用来自“饶峰”的评论

建议打成.zip包,MAC下对rar支持不太好。
OK
饶峰
饶峰

引用来自“杨尚川”的评论

Java中文分词组件word-1.0下载地址更新为:http://pan.baidu.com/s/1dDziDFz

建议打成.zip包,MAC下对rar支持不太好。
杨尚川
杨尚川

Java中文分词组件word-1.0下载地址更新为:http://pan.baidu.com/s/1dDziDFz

杨尚川
杨尚川

引用来自“撒旦他舅爷”的评论

这玩意靠谱么

非常靠谱
撒旦他舅爷
撒旦他舅爷

这玩意靠谱么

红星xx
红星xx

好东西。

返回顶部
顶部