FoolNLTK 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
FoolNLTK 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议: Apache
开发语言: Python
操作系统: 跨平台
收录时间: 2017-12-21
提 交 者: 正_午

FoolNLTK

中文处理工具包

特点

  • 可能不是最快的开源中文分词,但很可能是最准的开源中文分词

  • 基于BiLSTM模型训练而成

  • 包含分词,词性标注,实体识别, 都有比较高的准确率

  • 用户自定义词典

Install

pip install foolnltk

使用说明

分词

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

命令行分词

python -m fool [filename]

用户自定义词典

词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1

难受香菇 10
什么鬼 10
分词工具 10
北京 10
北京天安门 10

加载词典

import fool
fool.load_userdict(path)
text = "我在北京天安门看你难受香菇"
print(fool.cut(text))
# ['我', '在', '北京天安门', '看', '你', '难受香菇']

删除词典

fool.delete_userdict();

词性标注

import fool

text = "一个傻子在北京"
print(fool.pos_cut(text))
#[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]

实体识别

import fool 

text = "一个傻子在北京"
words, ners = fool.analysis(text)
print(ners)
#[(5, 8, 'location', '北京')]

注意

  • 暂时只在Python3 Linux 平台测试通过

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

FoolNLTK 的相关博客

部分常用分词工具使用整理

以下分词工具均能在Python环境中直接调用(排名不分先后)。 1、jieba(结巴分词) 免费使用 2、HanLP(汉语言处理包) 免费使...

部分常用分词工具使用整理

以下分词工具均能在Python环境中直接调用(排名不分先后)。 1、jieba(结巴分词) 免费使用 2、HanLP(汉语言处理包) 免费使...

hanlp和jieba等六大中文分工具的测试对比

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完...

hanlp和jieba等六大中文分工具的测试对比

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完...

python之自然语言处理入门(一)

前言 NTLK是著名的Python自然语言处理工具包,记录一下学习NTLK的总结。 安装nltk pip install nltk # 测试 import nltk 安装...

【小睿精选·第二期】RX13T以更低成本实现逆变器控制的32位MCU

【小睿精选】 【小睿精选】第二弹来啦,本期共收录 7条嵌入式资讯信息,希望可以帮到你。欢迎大家在文末留言,唠一唠你关注的...

目前常用的自然语言处理开源项目/开发包汇总

中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院...

准确实用,7个优秀的开源中文分词库推荐

中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语...

FoolNLTK 的相关问答

还没有任何问答,马上提问

评论 (4)

加载中
你好,请问如何自训练 实体识别
2018/12/12 10:07
回复
举报
打分: 还行
es怎么使用这个分词器
2018/01/19 10:13
回复
举报
打分: 力荐
666 似乎还不错
2017/12/22 22:38
回复
举报
打分: 还行
基于Bi-LSTM-CRF网络训练的吗?感觉就看训练语料的质量和规模了。
2017/12/22 10:40
回复
举报
更多评论
4 评论
189 收藏
分享
返回顶部
顶部