结巴分词 0.22 发布,Python 中文分词组件

来源: 投稿
作者: fxsjy
2012-11-28

结巴分词: 做最好的Python中文分词组件:-)

此次0.22版主要包含两个更新:

1) 新增jieba.cut_for_search方法, 该方法在精确分词的基础上对“长词”进行再次切分,适用于搜索引擎领域的分词,比精确分词模式有更高的召回率。

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") #搜索引擎模式
print ", ".join(seg_list)

输出:

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

2)开始支持Python3.x版。 之前一直是只支持Python2.x系列,从这个版本起有一个单独的jieba3k branch支持Python3.x。目前只在Python3.3上测试通过,欢迎大家测试并反馈意见。

展开阅读全文
17 收藏
分享
加载中
更多评论
0 评论
17 收藏
分享
返回顶部
顶部