准确率创新高,北大开源中文分词工具包 pkuseg

王练
 王练
发布于 2019年01月10日
收藏 126

北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。

pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性:

  1. 高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。

  2. 多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。

  3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

性能对比

在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下:

预训练模型

分词模式下,用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型。以下是对预训练模型的说明:

MSRA : 在 MSRA(新闻语料)上训练的模型。新版本代码采用的是此模型。下载地址

CTB8 : 在 CTB8(新闻文本及网络文本的混合型语料)上训练的模型。下载地址

WEIBO : 在微博(网络文本语料)上训练的模型。下载地址

更多详情可查阅项目仓库

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:准确率创新高,北大开源中文分词工具包 pkuseg
加载中

精彩评论

sxgkwei
sxgkwei
😅已经在分词上折腾怕了,深深的被分词伤害,感觉任何分词都是假把式。ik啊,smartcn啊,mmseg4j啊,jieba啊;都试过,真的折腾怕了;最后,目前直接在用 Standard 当英文处理,一个字一切。为啥选择这个不归路呢,那不是搜一大堆不那么匹配的出来么?人名搜索导致的!中国的人名字,怎么切都可能错,客户还喜欢用人名字搜,然后,搜的时候,人名字还不输入完整。如果用了分词器,噶,别玩了,搜不到的可能极大。最后,宁肯泛滥多出搜到的,也要保证能搜到;然后,就这样了。
Moodys
Moodys
更喜欢hanlp, 有Java版, 有Python版, 分词效果还很好

最新评论(12

负刀入梦里
分词效果确实很好...不知道什么时候开放词性标注呢
qiuyukuhe
qiuyukuhe
分词速度怎么样, 在多少数据集上做个测试和评价, 工业级的效果怎么样
sxgkwei
sxgkwei

引用来自“sxgkwei”的评论

😅已经在分词上折腾怕了,深深的被分词伤害,感觉任何分词都是假把式。ik啊,smartcn啊,mmseg4j啊,jieba啊;都试过,真的折腾怕了;最后,目前直接在用 Standard 当英文处理,一个字一切。为啥选择这个不归路呢,那不是搜一大堆不那么匹配的出来么?人名搜索导致的!中国的人名字,怎么切都可能错,客户还喜欢用人名字搜,然后,搜的时候,人名字还不输入完整。如果用了分词器,噶,别玩了,搜不到的可能极大。最后,宁肯泛滥多出搜到的,也要保证能搜到;然后,就这样了。

引用来自“简单生活”的评论

@sxgkwei 先用分词快速搜索,搜索不到,再采用原始方案,并记录这个词,加入分词库

引用来自“sxgkwei”的评论

分词又不会快,单切也不会慢。但如果内部使用两次,被客户遇到时,那就真的是慢了。

引用来自“简单生活”的评论

@sxgkwei 分词搜索不会快?这理论还是第一次听说
快能快多少?这个东西搜东西本来就很快,慢也慢不了几十毫秒去。不是说分词了就不会快点,而是说,一顿操作猛如虎,一看战绩0-5,没意义。有那闲工夫,把数据库SQL优化一下,把自己写的业务代码优化一下,比折腾这个带来的好处,多太多了。
简单生活
简单生活

引用来自“sxgkwei”的评论

😅已经在分词上折腾怕了,深深的被分词伤害,感觉任何分词都是假把式。ik啊,smartcn啊,mmseg4j啊,jieba啊;都试过,真的折腾怕了;最后,目前直接在用 Standard 当英文处理,一个字一切。为啥选择这个不归路呢,那不是搜一大堆不那么匹配的出来么?人名搜索导致的!中国的人名字,怎么切都可能错,客户还喜欢用人名字搜,然后,搜的时候,人名字还不输入完整。如果用了分词器,噶,别玩了,搜不到的可能极大。最后,宁肯泛滥多出搜到的,也要保证能搜到;然后,就这样了。

引用来自“简单生活”的评论

@sxgkwei 先用分词快速搜索,搜索不到,再采用原始方案,并记录这个词,加入分词库

引用来自“sxgkwei”的评论

分词又不会快,单切也不会慢。但如果内部使用两次,被客户遇到时,那就真的是慢了。
@sxgkwei 分词搜索不会快?这理论还是第一次听说
Moodys
Moodys
更喜欢hanlp, 有Java版, 有Python版, 分词效果还很好
marchine
marchine
用的jieba分词,感觉准确率还可以
子X午

引用来自“sxgkwei”的评论

😅已经在分词上折腾怕了,深深的被分词伤害,感觉任何分词都是假把式。ik啊,smartcn啊,mmseg4j啊,jieba啊;都试过,真的折腾怕了;最后,目前直接在用 Standard 当英文处理,一个字一切。为啥选择这个不归路呢,那不是搜一大堆不那么匹配的出来么?人名搜索导致的!中国的人名字,怎么切都可能错,客户还喜欢用人名字搜,然后,搜的时候,人名字还不输入完整。如果用了分词器,噶,别玩了,搜不到的可能极大。最后,宁肯泛滥多出搜到的,也要保证能搜到;然后,就这样了。
可以用全分词,词和单字都分。搜索的时候单字不至于漏了。分析的时候词还是比较有意义。
爽歪歪ES

引用来自“sxgkwei”的评论

😅已经在分词上折腾怕了,深深的被分词伤害,感觉任何分词都是假把式。ik啊,smartcn啊,mmseg4j啊,jieba啊;都试过,真的折腾怕了;最后,目前直接在用 Standard 当英文处理,一个字一切。为啥选择这个不归路呢,那不是搜一大堆不那么匹配的出来么?人名搜索导致的!中国的人名字,怎么切都可能错,客户还喜欢用人名字搜,然后,搜的时候,人名字还不输入完整。如果用了分词器,噶,别玩了,搜不到的可能极大。最后,宁肯泛滥多出搜到的,也要保证能搜到;然后,就这样了。
分词不是一个工程问题,是一个算法问题,跟院校合作吧
sxgkwei
sxgkwei

引用来自“sxgkwei”的评论

😅已经在分词上折腾怕了,深深的被分词伤害,感觉任何分词都是假把式。ik啊,smartcn啊,mmseg4j啊,jieba啊;都试过,真的折腾怕了;最后,目前直接在用 Standard 当英文处理,一个字一切。为啥选择这个不归路呢,那不是搜一大堆不那么匹配的出来么?人名搜索导致的!中国的人名字,怎么切都可能错,客户还喜欢用人名字搜,然后,搜的时候,人名字还不输入完整。如果用了分词器,噶,别玩了,搜不到的可能极大。最后,宁肯泛滥多出搜到的,也要保证能搜到;然后,就这样了。

引用来自“简单生活”的评论

@sxgkwei 先用分词快速搜索,搜索不到,再采用原始方案,并记录这个词,加入分词库
分词又不会快,单切也不会慢。但如果内部使用两次,被客户遇到时,那就真的是慢了。
简单生活
简单生活

引用来自“sxgkwei”的评论

😅已经在分词上折腾怕了,深深的被分词伤害,感觉任何分词都是假把式。ik啊,smartcn啊,mmseg4j啊,jieba啊;都试过,真的折腾怕了;最后,目前直接在用 Standard 当英文处理,一个字一切。为啥选择这个不归路呢,那不是搜一大堆不那么匹配的出来么?人名搜索导致的!中国的人名字,怎么切都可能错,客户还喜欢用人名字搜,然后,搜的时候,人名字还不输入完整。如果用了分词器,噶,别玩了,搜不到的可能极大。最后,宁肯泛滥多出搜到的,也要保证能搜到;然后,就这样了。
@sxgkwei 先用分词快速搜索,搜索不到,再采用原始方案,并记录这个词,加入分词库
返回顶部
顶部