结巴分词 0.28 发布,Python 中文分词组件

fxsjy
 fxsjy
发布于 2013年04月27日
收藏 13

2013-04-27: version 0.28
========================
1) 新增词典lazy load功能,用户可以在'import jieba'后再改变词典的路径. 感谢hermanschaaf
2) 显示词典加载异常时错误的词条信息. 感谢neuront 
3) 修正了词典被vim编辑后会加载失败的bug. 感谢neuront  


模块初始化机制的改变:lazy load
=====================

jieba采用延迟加载,"import jieba"不会立即触发词典的加载,一旦有必要才开始加载词典构建trie。如果你想手工初始jieba,也可以手动初始化。

    import jieba
    jieba.initialize() #手动初始化(可选)


在0.28之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径:


    jieba.set_dictionary('data/dict.txt.big')


例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py

Changelog:

https://github.com/fxsjy/jieba/blob/master/Changelog


 

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:结巴分词 0.28 发布,Python 中文分词组件
加载中

最新评论(11

你来人间一趟
你来人间一趟

引用来自“sunjunyi”的评论

您是说goseg?嗯,也是我的,goseg是用神经网络分词,是我的一个尝试。

太帅了 向您学习!
fxsjy
fxsjy
您是说goseg?嗯,也是我的,goseg是用神经网络分词,是我的一个尝试。
你来人间一趟
你来人间一趟

引用来自“sunjunyi”的评论

谢谢大家的支持,现在更新得快了,主要是因为很多网友给我发pull request,比我一个人开发时进度加快了。

我看到一个golang的版本 是您的作品么 ?
a
atyu30
怎么结合 sphinx ?
fxsjy
fxsjy
@objectboy , 在ironpython下可以跑。
二灯大师
二灯大师
.net版本也出出 嘻嘻
fxsjy
fxsjy
谢谢大家的支持,现在更新得快了,主要是因为很多网友给我发pull request,比我一个人开发时进度加快了。
纵使有花兼明月何堪无酒亦无人
纵使有花兼明月何堪无酒亦无人
更新真是太快了!
王阿觉
王阿觉
这个更新的真是给力
李惟
李惟
推出个PHP版吧
返回顶部
顶部