Java分布式中文分词组件word分词v1.2发布

杨尚川
 杨尚川
发布于 2015年04月11日
收藏 114

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。

自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式、支持资源变化自动检测、新增了全切分算法、支持三元模型、支持Luke插件、增加gradle支持等等,同时,word1.2支持最新的ElasticSearch1.5.1、Lucene4.10.4、Solr4.10.4以及Luke4.0。

更多细节请查看:word分词主页

word分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:Java分布式中文分词组件word分词v1.2发布
加载中

最新评论(5

qwe342xxx
qwe342xxx

引用来自“红薯”的评论

写新闻建议不要搞特别的字体大小和样式,考虑下阅读者的感受哦:) 要符合整站风格
我就这样写.你把我开了?
yuzhouliu
yuzhouliu

引用来自“红薯”的评论

写新闻建议不要搞特别的字体大小和样式,考虑下阅读者的感受哦:) 要符合整站风格
没有模板吗
EihXk
EihXk

引用来自“红薯”的评论

写新闻建议不要搞特别的字体大小和样式,考虑下阅读者的感受哦:) 要符合整站风格
他想突出一些东西
杨尚川
杨尚川

引用来自“红薯”的评论

写新闻建议不要搞特别的字体大小和样式,考虑下阅读者的感受哦:) 要符合整站风格
thanks, i got it
红薯
红薯
写新闻建议不要搞特别的字体大小和样式,考虑下阅读者的感受哦:) 要符合整站风格
返回顶部
顶部