word v1.3.1 发布,Java 分布式中文分词组件

杨尚川
 杨尚川
发布于 2015年10月05日
收藏 86

word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

word 1.3.1这个版本是从代码分支ForElasticsearch1.7.2中编译出来的,主要目的是支持与lucene4.10.4、solr4.10.4和elasticsearch1.7.2兼容的版本。

word 分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:word v1.3.1 发布,Java 分布式中文分词组件
加载中

最新评论(9

壹城
壹城
曾经用过结巴!
杨尚川
杨尚川

引用来自“林林未”的评论

跟ik比 咋样?
https://github.com/ysc/cws_evaluation
林林未
林林未
跟ik比 咋样?
BossKiller
BossKiller
求PHP替代项目
引鸩怼孑
引鸩怼孑
怎一个赞字能表出28
Moy
Moy
感觉屌炸了啊
肖申克救赎
肖申克救赎
osc 的搜索很差劲, 该改改了,
iyangyuan
iyangyuan
好像很完美,就没有什么不足之处吗?
19492049
19492049
mark
返回顶部
顶部