结巴分词 0.27 发布,Python 中文分词组件 - 开源中国社区
结巴分词 0.27 发布,Python 中文分词组件
fxsjy 2013年04月22日

结巴分词 0.27 发布,Python 中文分词组件

fxsjy fxsjy 发布于2013年04月22日 收藏 26 评论 8

免费体验IBM Cloud,构建Iot应用 >>>  

本次release的主要更新:

1) 新增并行分词功能,可以在多核计算机上显著提高分词速度

2) 修正了“的”字频过高引起的bug;修正了对小数点和下划线的处理

3) 修正了python2.6存在的兼容性问题

 并行分词介绍:

  • 原理:将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果,从而获得分词速度的可观提升
  • 基于python自带的multiprocessing模块,目前暂不支持windows
  • 用法:

    • jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数
    • jieba.disable_parallel() # 关闭并行分词模式

  • 例子: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py

  • 实验结果:在4核3.4GHz Linux机器上,对金庸全集进行分词,获得了1MB/s的速度,是单进程版的3.3倍。

 

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:结巴分词 0.27 发布,Python 中文分词组件
分享
评论(8)
最新评论
0
支持并收藏。
0
支持个,中文的,真心的少
0
有没有考虑多语言的实现?我在java端想试用。或者有没有代替的方法?
0
坚持的人都应该支持,支持支持!
0
'结巴'有歧视义,不如换个更霸气的名字,个人意见=.=
0
坚持做东西不容易。
支持
0

引用来自“滔滔下载站”的评论

python的要支持

谢谢支持啊
0
python的要支持
顶部