pkuseg 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
pkuseg 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
pkuseg 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
pkuseg 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
pkuseg 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

pkuseg-python:一个高准确度的中文分词工具包

pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。

主要亮点

pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg 具有如下几个特点:

  1. 高分词准确率。相比于其他的分词工具包,我们的工具包在不同领域的数据上都大幅提高了分词的准确度。根据我们的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。

  2. 多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。

  3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

编译和安装

  1. 通过 pip 下载(自带模型文件)

    pip install pkuseg
    之后通过import pkuseg来引用

  2. 从 github 下载(需要下载模型文件,见预训练模型)

    将pkuseg文件放到目录下,通过import pkuseg使用
    模型需要下载或自己训练。

各类分词工具包的性能对比

我们选择 THULAC、结巴分词等国内代表分词工具包与 pkuseg 做性能比较。我们选择 Linux 作为测试环境,在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上对不同工具包进行了准确率测试。我们使用了第二届国际汉语分词评测比赛提供的分词评价脚本。评测结果如下:

 代码示例

示例1

代码示例1		使用默认模型及默认词典分词
import pkuseg
seg = pkuseg.pkuseg()				#以默认配置加载模型
text = seg.cut('我爱北京天安门')	#进行分词
print(text)

示例2 

代码示例2		设置用户自定义词典
import pkuseg
lexicon = ['北京大学', '北京天安门']	#希望分词时用户词典中的词固定不分开
seg = pkuseg.pkuseg(user_dict=lexicon)	#加载模型,给定用户词典
text = seg.cut('我爱北京天安门')		#进行分词
print(text)

示例3 

代码示例3
import pkuseg
seg = pkuseg.pkuseg(model_name='./ctb8')	#假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
text = seg.cut('我爱北京天安门')			#进行分词
print(text)

示例4 

代码示例4
import pkuseg
pkuseg.test('input.txt', 'output.txt', nthread=20)	#对input.txt的文件分词输出到output.txt中,使用默认模型和词典,开20个进程

示例5 

代码示例5
import pkuseg
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)	#训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (3)

加载中
实际简单测试了一下jieba和此工具,虽然测试不全面,但这结果差强人意,鼓吹严重
2019/01/17 17:13
回复
举报
666,我明天看看
2019/01/10 22:31
回复
举报
是否有Java版本的分词工具呢?
2019/01/10 21:47
回复
举报
更多评论
发表于AI & 大数据专区
2019/01/10 08:00

准确率创新高,北大开源中文分词工具包 pkuseg

北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。 pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。 多领域分词。研究组训练了多...

12
129
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/08/01 11:51

pkuseg

git-url: https://github.com/lancopku/PKUSeg-python pkuseg:一个多领域中文分词工具包 pkuseg简单易用,支持细分领域分词,有效提升了分词准确度。 主要亮点 pkuseg具有如下几个特点: 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域...

0
0
2019/01/10 18:42

[493]新中文分词工具包pkuseg

北大开源全新中文分词工具包:准确率远超THULAC、结巴分词 最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32%。 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。 项目地址:https://git...

0
0
2020/05/29 20:47

pkuseg:领域细分的中文分词工具

细分领域的中文分词工具,简单易用,跟现有开源分词工具相比提高了分词的准确率。 Linux作为测试环境,在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。 细领域训练及测试结果 以下是在不同数据集上的对比结果: 跨领域测试结果 我们选用了混合领域的CTB8语料的训练集进行训练,同时在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。选择CTB8语料的原因是,CTB8属于混合语...

0
0
发表了博客
2019/03/13 09:22

pkuseg:一个多领域中文分词工具包

pkuseg简单易用,支持细分领域分词,有效提升了分词准确度。 目录 主要亮点 编译和安装 各类分词工具包的性能对比 使用方式 相关论文 作者 常见问题及解答 主要亮点 pkuseg具有如下几个特点: 多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合...

0
0
2019/12/09 18:38

pkuseg 和 jieba 分词对比测试,结果出乎意料...

点击上方“Python编程与实战”,选择“置顶公众号” 第一时间获取 Python 技术干货! 阅读文本大概需要 5 分钟。 有做过搜索的朋友知道,分词的好坏直接影响我们最终的搜索结果。 在分词的领域,英文分词要简单很多,因为英文语句中都是通过一个个空格来划分的,而我们的中文博大精深,同样的词在不同的语境中所代表的含义千差万别,有时候必须联系上下文才能知道它准确的表达意思,因此中文分词一直是分词领域的一大挑战。 之前...

0
0
2019/02/15 08:54

关于词云可视化笔记三(pkuseg和中文词汇可视化)

pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg具有如下几个特点: 高分词准确率。相比于其他的分词工具包,pkuseg的工具包在不同领域的数据上都大幅提高了分词的准确度。当然无法验证。 多领域分词。我们训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。 支持用户自训练模型。支持用户使用全新的标注数据进行训练。 git链接:https://github.co...

0
0
发表于服务端专区
2020/04/17 11:11

北大开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了统计

做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它的意思。 因此,中文分词技术一直是nlp领域中的一大挑战。Python 中有个比较著名的分词库是结巴分词,从易用性来说对用户是非常友好的,但是准确度不怎么好。这几天发现另外一个库,pkuseg-python,看起来应该是北...

0
0
发表了博客
2019/01/15 10:26

基于开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了测试

做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它的意思。 因此,中文分词技术一直是nlp领域中的一大挑战。Python 中有个比较著名的分词库是结巴分词,从易用性来说对用户是非常友好的,但是准确度不怎么好。这几天发现另外一个库,pkuseg-python,看起来应该是北...

0
0
发表了博客
2019/08/03 17:23

NLP(十三)中文分词工具的使用尝试

  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。   首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分词模型文件cws.model。在用户字典中添加以下5个词语: 经 少安 贺凤英 F-35战斗机 埃达尔·阿勒坎   测试的Python代码如下: # -*- coding: utf-8 -*- import os import jieba import pkuseg from pyltp import Segmentor lexicon = [...

0
0
发表了博客
2019/01/10 19:37

北大开源全新中文分词工具包:准确率远超THULAC、结巴分词

最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32%。 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。 项目地址:https://github.com/lancopku/PKUSeg-python pkuseg 具有如下几个特点:...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
3 评论
58 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部