结巴分词 0.28 发布,Python 中文分词组件 - 开源中国社区
结巴分词 0.28 发布,Python 中文分词组件
fxsjy 2013年04月27日

结巴分词 0.28 发布,Python 中文分词组件

fxsjy fxsjy 发布于2013年04月27日 收藏 13 评论 11

有免费的MySQL,为什么还要买? >>>  

2013-04-27: version 0.28
========================
1) 新增词典lazy load功能,用户可以在'import jieba'后再改变词典的路径. 感谢hermanschaaf
2) 显示词典加载异常时错误的词条信息. 感谢neuront 
3) 修正了词典被vim编辑后会加载失败的bug. 感谢neuront  


模块初始化机制的改变:lazy load
=====================

jieba采用延迟加载,"import jieba"不会立即触发词典的加载,一旦有必要才开始加载词典构建trie。如果你想手工初始jieba,也可以手动初始化。

    import jieba
    jieba.initialize() #手动初始化(可选)


在0.28之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径:


    jieba.set_dictionary('data/dict.txt.big')


例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py

Changelog:

https://github.com/fxsjy/jieba/blob/master/Changelog


 

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:结巴分词 0.28 发布,Python 中文分词组件
分享
评论(11)
最新评论
0

引用来自“sunjunyi”的评论

您是说goseg?嗯,也是我的,goseg是用神经网络分词,是我的一个尝试。

太帅了 向您学习!
0
您是说goseg?嗯,也是我的,goseg是用神经网络分词,是我的一个尝试。
0

引用来自“sunjunyi”的评论

谢谢大家的支持,现在更新得快了,主要是因为很多网友给我发pull request,比我一个人开发时进度加快了。

我看到一个golang的版本 是您的作品么 ?
0
怎么结合 sphinx ?
0
@objectboy , 在ironpython下可以跑。
0
.net版本也出出 嘻嘻
0
谢谢大家的支持,现在更新得快了,主要是因为很多网友给我发pull request,比我一个人开发时进度加快了。
更新真是太快了!
0
这个更新的真是给力
0
推出个PHP版吧
0
最近更新挺快
顶部