cws_evaluation v1.0 发布,Java 中文分词器分词效果评估 - 开源中国社区
cws_evaluation v1.0 发布,Java 中文分词器分词效果评估
杨尚川 2014年05月02日

cws_evaluation v1.0 发布,Java 中文分词器分词效果评估

杨尚川 杨尚川 发布于2014年05月02日 收藏 25 评论 4

有免费的MySQL,为什么还要买? >>>  

cws_evaluation 是一个Java开源项目,用于对Java中文分词器分词效果进行评估。

支持的分词器有:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、paoding分词器、jieba分词器、stanford分词器等9大中文分词器。

评估采用的测试文本有253 3709行,共2837 4490个字符。

可运行程序下载

评估结果

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:cws_evaluation v1.0 发布,Java 中文分词器分词效果评估
分享
评论(4)
最新评论
0
貌似对IK也不公平, IK会把"我很好"切分成: 我很 很好
0
很好的一个项目.

感觉这个对jcseg貌似不太公平, 因为jcseg会自动识别中文数字并且会自动转换为阿拉伯数字, 会自动识别复杂的英文切分然后进行二次切分, 会自动的识别匹配符号中的内容, 以及会自动追加同义词功能(不过我看到你关闭了同义词功能),自动大小写转换,停止词过滤等....
0

庖丁分词似乎是最快的?

0

支持一下。。。

顶部