NLTK 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
NLTK 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
NLTK 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Python
操作系统 跨平台
软件类型 开源软件
开源组织
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2009-06-01

软件简介

NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上。那些熟悉人工语言(比如 Python)的文法和解析的读者来说,理解自然语言模型中类似的 —— 但更深奥的 —— 层不会有太大困难。

尽管 NLTK 附带了很多已经预处理(通常是手工地)到不同程度的全集,但是概念上每一层都是依赖于相邻的更低层次的处理。首先是断词;然后是为单词加上 标签;然后将成组的单词解析为语法元素,比如名词短语或句子(取决于几种技术中的某一种,每种技术都有其优缺点);最后对最终语句或其他语法单元进行分类。通过这些步骤,NLTK 让您可以生成关于不同元素出现情况的统计,并画出描述处理过程本身或统计合计结果的图表。

展开阅读全文

代码

评论 (0)

加载中
更多评论
暂无内容
发表了博客
2019/03/28 23:33

NLTK基础

Python上著名的⾃然语⾔处理库 ⾃带语料库,词性分类库 ⾃带分类,分词,等等功能 强⼤的社区⽀持 还有N多的简单版wrapper 安装语料库 # 方式一 import nltk nltk.download() showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml 若下载速度慢或因其他原因下载失败 官方下载地址 http://www.nltk.org/nltk_data/¶ githup下载地址 https://github.com/nltk/nltk_data 下载packages文件,...

0
0
发表了博客
2019/04/21 10:56

离线下载安装 NLTK 的 nltk_data 模块

离线下载安装 NLTK 的 nltk_data 模块 转 https://blog.csdn.net/u010167269/article/details/63684137 在 Linux 上使用 NLTK,因为无法联网,只能离线安装。 对于国内,即使能联网,有些下载还等找梯子 离线下载的包:nltk_data,提取密码: 9uk5 或 https://pan.baidu.com/s/1myvmToyPe88Db9apl4bQ0w 密码:lcrs 查看下载配置位置,在 python 环境下,输入: import nltk nltk.data.find(".") 就会显示对于这些数据的搜索路径...

0
0
发表了博客
2018/08/25 21:20

NLTK的探索

import nltk import random from nltk.corpus import movie_reviews documents = [(list(movie_reviews.words(fileid)), category) for category in movie_reviews.categories() for fileid in movie_reviews.fileids(category)] random.shuffle(documents) all_words = [] for w in movie_reviews.words(): all_words.append(w.lower()) all_words = nltk.FreqDist(all_wor...

0
0
发表了博客
2018/11/18 21:20

NLTK入门

首先要了解python的基本语法,   其中列表的处理,字符串的格式化,以及词汇的比较运算(包括判断某一个词语开头是否大小写等) 专有名词:   1. 分词:用于产生词汇和标点符号的链表 安装完NlLTK后,   import nltk   nltk.download()   计算text1中每个词的平均出现次数公式:   avg = len(text1)/len(set(text1)) 计算text1中某个词的出现频率   p = text1.count('a')/len(text1) import nltk from nltk.book...

0
0
发表了博客
2016/06/15 10:28

nltk的简单应用

简单例子 # -*- coding: utf-8 -*- """ http://www.nltk.org/ 首页示例 """ import nltk # Tokenize and tag some text: sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good." tokens = nltk.word_tokenize(sentence) print tokens tagged = nltk.pos_tag(tokens) print tagged[0:6] # Identify named entities: entities = nltk.chunk.ne_chunk(tagged) print entities # Display a pars...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2015/10/02 12:57

python自然语言处理关于nltk中FreqDist.inc不存在的问题

最近在学习python自然语言处理这本书,用到了nltk频率分布类FreqDist中的一些函数,其中有个增加样本的函数:XXX.inc(),然而,报错了,AttributeError: 'FreqDist' object has no attribute 'inc',我重新安装了nltk,仍然是这样,我的安装系统是win10 64位,python是2.7.10的,希望有人可以帮到我,多谢

1
0
发表了问答
2014/05/28 09:54

对文本进行pos-tag

我想对文本进行pos-tag import nltk; file_object = open('E:\\practise\\Web1T5-Easy-1.1\\3grams\\3gm-0000.txt') try: for eachline in file_object: print eachline,; text = nltk.word_tokenize(eachline) nltk.pos_tag(text) finally: file_object.close( ) 但是结果显示 > "D:\software\python\Python27\python.exe" -u "E:\practise\python\postagger_test.py" ! " '' 508 Traceback (most recent call last): File "E...

1
0
发表了问答
2012/12/19 09:00

探索 Python、机器学习和 NLTK 库

开发一个应用程序,使用 Python、NLTK 和机器学习对 RSS 提要进行分类 作者:Chris Joakim, 高级软件工程师, Primedia Inc 简介: 机器学习取决于 IT、数学和自然语言的交集,在大数据应用程序中会通常用到机器学习。本文将讨论 Python 编程语言和它的 NLTK 库,然后将它们应用于一个机器学习项目。 挑战:使用机器学习对 RSS 提要进行分类 最近,我接到一项任务,要求为客户创建一个 RSS 提要分类子系统。目标是读取几十个甚至...

21
138
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
51 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部