pkuseg 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
pkuseg 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
pkuseg 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 MIT
开发语言 Python
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发中文分词库
开源组织
地区 国产
投 递 者 王练
适用人群 未知
收录时间 2019-01-09

软件简介

pkuseg-python:一个高准确度的中文分词工具包

pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。

主要亮点

pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg 具有如下几个特点:

  1. 高分词准确率。相比于其他的分词工具包,我们的工具包在不同领域的数据上都大幅提高了分词的准确度。根据我们的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。

  2. 多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。

  3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

编译和安装

  1. 通过 pip 下载(自带模型文件)

    pip install pkuseg
    之后通过import pkuseg来引用

  2. 从 github 下载(需要下载模型文件,见预训练模型)

    将pkuseg文件放到目录下,通过import pkuseg使用
    模型需要下载或自己训练。

各类分词工具包的性能对比

我们选择 THULAC、结巴分词等国内代表分词工具包与 pkuseg 做性能比较。我们选择 Linux 作为测试环境,在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上对不同工具包进行了准确率测试。我们使用了第二届国际汉语分词评测比赛提供的分词评价脚本。评测结果如下:

 代码示例

示例1

代码示例1		使用默认模型及默认词典分词
import pkuseg
seg = pkuseg.pkuseg()				#以默认配置加载模型
text = seg.cut('我爱北京天安门')	#进行分词
print(text)

示例2 

代码示例2		设置用户自定义词典
import pkuseg
lexicon = ['北京大学', '北京天安门']	#希望分词时用户词典中的词固定不分开
seg = pkuseg.pkuseg(user_dict=lexicon)	#加载模型,给定用户词典
text = seg.cut('我爱北京天安门')		#进行分词
print(text)

示例3 

代码示例3
import pkuseg
seg = pkuseg.pkuseg(model_name='./ctb8')	#假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
text = seg.cut('我爱北京天安门')			#进行分词
print(text)

示例4 

代码示例4
import pkuseg
pkuseg.test('input.txt', 'output.txt', nthread=20)	#对input.txt的文件分词输出到output.txt中,使用默认模型和词典,开20个进程

示例5 

代码示例5
import pkuseg
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)	#训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(3)
发表于开发技能专区
2019/01/10 08:00

准确率创新高,北大开源中文分词工具包 pkuseg

北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。 pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。 多领域分词。研究组训练了多...

12
129
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
3 评论
59 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部