THUOCL

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。 THUOCL 具有以下特点: 包含词频统计信息 DF 值(Document Frequency),方便用户个性化选择使用。 词库经过多轮人工筛选,保证词库收录的准确性。 开放更新,将不断更新现有词表,并推出更多类别词表。 该词库可以用于中文自动分词,提升中文分词效果。...

你要找的是不是: THUOCL首页 THUOCL文档 THUOCL源码下载
加载中

THUOCL - 清华大学开源的高质量中文词库

https://www.oschina.net/p/thuocl

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。 THUOCL 具有以下...

THUOCL —— 清华大学开源的高质量中文词库

https://www.oschina.net/news/93476

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。...

2018/02/19 00:00

朴素贝叶斯算法——实现自动分类

https://my.oschina.net/u/4383568/blog/3672389

朴素贝叶斯算法是机械学习中比较简单中的算法,采用贝叶斯算法可以实现简单的分类技术。 文章中采用的数据训练库为 THUOCL:清华大学开放中文词库 数据格式为 : word , type (单词、类型) 如...

2019/01/17 00:00

现有领域词典的考察

https://my.oschina.net/u/4359488/blog/3786222

领域词典的搬运工 现有的可获得领域词典(可免费下载) 1千万级巨型汉语词库 2THUOCL:清华大学开放中文词库 3搜狗词典 4百度输入词典 5QQ输入法词典 (ps:此链接包含三个常见输入法的词典和提取...

2018/10/19 00:00

HanLP《自然语言处理入门》笔记--2.词典分词

https://my.oschina.net/u/4409332/blog/3291383

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 2. 词典分词 中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。 中文分词算法大致分...

2020/02/05 00:00

HanLP《自然语言处理入门》笔记--2.词典分词

https://my.oschina.net/u/4314216/blog/3205738

https://www.cnblogs.com/mantch/p/12263499.html 笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 2. 词典分词 中文分词:指的是将一段文本拆分为一系列单词的过程,这...

2020/03/19 00:00

HanLP《自然语言处理入门》笔记--2.词典分词

https://my.oschina.net/u/4332395/blog/3201600

https://www.cnblogs.com/mantch/p/12263499.html 笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 2. 词典分词 中文分词:指的是将一段文本拆分为一系列单词的过程,这...

2020/03/19 00:00

自然语言处理入门 何晗 读书笔记 第2章 词典分词

https://my.oschina.net/u/4410118/blog/3344893

中文分词指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派别。本章先从简单的规则入手,为读者介绍一些高效...

2019/11/21 00:00

做项目一定用得到的NLP资源

https://my.oschina.net/u/3719881/blog/4804074

最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。 涉及内容包括:中英文。。词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号...

2020/05/23 00:00
返回顶部
顶部