简易 Pythonic 文本处理工具 TextBlob

简易 Pythonic 文本处理工具 TextBlob

MIT
Python
跨平台
2017-03-03
王练

TextBlob 是一款 Pythonic 的文本处理工具,用于处理文本数据,它提供了一个简单的 API,用于潜入常见的自然语言处理(NLP)任务,如词性标注、名词短语提取、情感分析、分类、翻译等。

特性:

  • 名词短语提取

  • 词性标记

  • 情绪分析

  • 分类

  • 由 Google 翻译提供的翻译和检测

  • 标记(将文本分割成单词和句子)

  • 词句、短语频率

  • 解析

  • n-gram

  • 词变化(复数和单数化)和词形化

  • 拼写校正

  • 通过扩展添加新模型或语言

  • WordNet 集成

示例:

from textblob import TextBlob

text = '''
The titular threat of The Blob has always struck me as the ultimate movie
monster: an insatiably hungry, amoeba-like mass able to penetrate
virtually any safeguard, capable of--as a doomed doctor chillingly
describes it--"assimilating flesh on contact.
Snide comparisons to gelatin be damned, it's a concept with the most
devastating of potential consequences, not unlike the grey goo scenario
proposed by technological theorists fearful of
artificial intelligence run rampant.
'''

blob = TextBlob(text)
blob.tags           # [('The', 'DT'), ('titular', 'JJ'),
                    #  ('threat', 'NN'), ('of', 'IN'), ...]

blob.noun_phrases   # WordList(['titular threat', 'blob',
                    #            'ultimate movie monster',
                    #            'amoeba-like mass', ...])

for sentence in blob.sentences:
    print(sentence.sentiment.polarity)
# 0.060
# -0.341

blob.translate(to="es")  # 'La amenaza titular de The Blob...'
加载中

评论(4)

深蓝苹果
深蓝苹果
所谓中文,也就是分词和词型化两个步骤,替换成支持中文的模块就好了
mickelfeng
mickelfeng
的确额。不支持中文额
木头r
木头r
说是文本处理工具,还以为是像记事本那样的编辑器。原来是用nltk的自然语言处理工具
amita
amita
看样子没中文什么事

暂无资讯

暂无问答

SnowNLP:一个处理中文文本的 Python 类库

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和T...

2013/12/17 16:13
571
1
6个最高效的语言处理Python库,你用过几个?

最近一段时间Python已经成为数据科学行业中大火的编程语言,今天技术学派收集了一些较为高效的语言处理Python库。下面分享给大家。 1.NLTK NLTK是构建Python程序以处理人类语言数据的领先平台...

2018/06/05 23:02
369
0
自然语言处理

wit.ai turn speech or text into actionable data TextBlob Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and ...

2015/07/15 14:02
11
0
目前常用的自然语言处理开源项目/开发包汇总

中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,; 英文...

2018/11/26 09:56
42
0
部分常用分词工具使用整理

以下分词工具均能在Python环境中直接调用(排名不分先后)。 1、jieba(结巴分词) 免费使用 2、HanLP(汉语言处理包) 免费使用 3、SnowNLP(中文的类库) 免费使用 4、FoolNLTK(中文处理工...

05/29 09:35
10
0
常用python机器学习库总结

1. Python网页爬虫工具集 一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据...

2018/04/18 15:03
15
0
【干货】Python爬虫/文本处理/科学计算/机器学习/数据挖掘兵器谱

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是...

2016/08/19 10:43
114
0
Python网页搜索&文本处理&科学计算&机器学习&数据挖掘兵器

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也 ...

2015/12/24 13:30
114
2
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

从“我爱自然语言处理”:www.52nlp.cn 处转载! 注:原创文章,转载请注明出处 本文链接地址:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘...

2014/07/25 19:16
175
0
NLP常用python模块工具

前言:做NLP工程时少不了利用各种现成的工具包来对文字进行处理,学习工作这么久,接触使用了不少nlp工具包,NLP中大多是以Python语言为主,因此大部分工具是Python的,少部分的是Java的以及...

2018/08/11 00:12
163
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部