中文分词工具包 pkuseg

MIT
Python
跨平台
2019-01-09
王练

完善个人资料领开源豆,速来抽奖!>>>

pkuseg-python:一个高准确度的中文分词工具包

pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。

主要亮点

pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg 具有如下几个特点:

  1. 高分词准确率。相比于其他的分词工具包,我们的工具包在不同领域的数据上都大幅提高了分词的准确度。根据我们的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。

  2. 多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。

  3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

编译和安装

  1. 通过 pip 下载(自带模型文件)

    pip install pkuseg
    之后通过import pkuseg来引用

  2. 从 github 下载(需要下载模型文件,见预训练模型)

    将pkuseg文件放到目录下,通过import pkuseg使用
    模型需要下载或自己训练。

各类分词工具包的性能对比

我们选择 THULAC、结巴分词等国内代表分词工具包与 pkuseg 做性能比较。我们选择 Linux 作为测试环境,在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上对不同工具包进行了准确率测试。我们使用了第二届国际汉语分词评测比赛提供的分词评价脚本。评测结果如下:

 代码示例

示例1

代码示例1		使用默认模型及默认词典分词
import pkuseg
seg = pkuseg.pkuseg()				#以默认配置加载模型
text = seg.cut('我爱北京天安门')	#进行分词
print(text)

示例2 

代码示例2		设置用户自定义词典
import pkuseg
lexicon = ['北京大学', '北京天安门']	#希望分词时用户词典中的词固定不分开
seg = pkuseg.pkuseg(user_dict=lexicon)	#加载模型,给定用户词典
text = seg.cut('我爱北京天安门')		#进行分词
print(text)

示例3 

代码示例3
import pkuseg
seg = pkuseg.pkuseg(model_name='./ctb8')	#假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
text = seg.cut('我爱北京天安门')			#进行分词
print(text)

示例4 

代码示例4
import pkuseg
pkuseg.test('input.txt', 'output.txt', nthread=20)	#对input.txt的文件分词输出到output.txt中,使用默认模型和词典,开20个进程

示例5 

代码示例5
import pkuseg
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)	#训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型
的码云指数为
超过 的项目
加载中
此软件有 3 条评论,请先登录后再查看。

准确率创新高,北大开源中文分词工具包 pkuseg

北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。 pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分词...

2019/01/10 08:00

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无问答

pkuseg:一个多领域中文分词工具包

pkuseg简单易用,支持细分领域分词,有效提升了分词准确度。 目录 主要亮点 编译和安装 各类分词工具包的性能对比 使用方式 相关论文 作者 常见问题及解答 主要亮点 pkuseg具有如下几个特点:...

2019/03/13 09:22
33
0
基于开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了测试

做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系...

2019/01/15 10:26
71
0
NLP(十三)中文分词工具的使用尝试

  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。   首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分词...

2019/08/03 17:23
47
0
爬取疫情数据,以django+pyecharts实现数据可视化web网页

在家呆着也是呆着,不如做点什么消磨时间呗~ 试试用django+pyecharts实现疫情数据可视化web页面 这里要爬疫情数据 来自丁香园、搜狗及百度的疫情实时动态展示页 github上这个项目收到了一个s...

02/13 23:24
65
0
广告行业中那些趣事系列7:实战腾讯开源的文本分类项目NeuralClassifier

摘要:本篇主要分享腾讯开源的文本分类项目NeuralClassifier。虽然实际项目中使用BERT进行文本分类,但是在不同的场景下我们可能还需要使用其他的文本分类算法,比如TextCNN、RCNN等等。通过...

2019/04/10 10:10
28
0
自然语言处理(NLP)相关学习资料/资源

自然语言处理(NLP)相关学习资料/资源 1. 书籍推荐 自然语言处理 统计自然语言处理(第2版) 作者:宗成庆 出版社:清华大学出版社;出版年:2013;页数:570 内容简介:系统地描述了神经网...

2019/12/13 16:54
62
0
NLP舞动之中文分词浅析(一)

一、简介 针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于...

2019/09/21 13:12
32
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部