2017/10/08 22:08

引用来自“2010jing”的评论

打开python终端导入NLTK检查NLTK是否正确安装:

import mltk

打错了 mltk
感谢指正
2017/10/07 16:44
打开python终端导入NLTK检查NLTK是否正确安装:

import mltk

打错了 mltk
2017/10/02 13:50

引用来自“Dormouse”的评论

有两点不解,请指教:
第一, [t for t in text.split()] 与 text.split() 我觉得是等价的,不知对否?
第二,
clean_tokens = list()
sr = stopwords.words('english')
for token in tokens:
if token not in sr:
clean_tokens.append(token)
这个写法有点低效了,建议了解一下”Python函数式编程“,不知妥否?

引用来自“j_hao104”的评论

第一个已修正。
第二种用map函数是可以,这种只是为了更直观些。
😄
clean_tokens = [token for token in tokens if token not in sr]
😊
2017/10/02 10:42

引用来自“Dormouse”的评论

有两点不解,请指教:
第一, [t for t in text.split()] 与 text.split() 我觉得是等价的,不知对否?
第二,
clean_tokens = list()
sr = stopwords.words('english')
for token in tokens:
if token not in sr:
clean_tokens.append(token)
这个写法有点低效了,建议了解一下”Python函数式编程“,不知妥否?
第一个已修正。
第二种用map函数是可以,这种只是为了更直观些。
😄
2017/09/30 22:44
一篇不错文章(关系的也是对汉语的处理)
2017/09/30 16:55
有两点不解,请指教:
第一, [t for t in text.split()] 与 text.split() 我觉得是等价的,不知对否?
第二,
clean_tokens = list()
sr = stopwords.words('english')
for token in tokens:
if token not in sr:
clean_tokens.append(token)
这个写法有点低效了,建议了解一下”Python函数式编程“,不知妥否?
2017/09/30 13:39

引用来自“酸辣粉加鸡蛋”的评论

中文博大精深,有这方面的工具吗?
处理中文的难点在分词吧,推荐ICTCLAS和jieba。
2017/09/30 13:34

引用来自“开源X”的评论

结巴分词算是NLP工具么
中文分词是中文NLP的前提
2017/09/30 12:56
中文博大精深,有这方面的工具吗?
2017/09/30 11:33
结巴分词算是NLP工具么
2017/09/30 09:30
功能强大 学习
2017/09/29 19:18
终于看完,很棒,谢谢!
2017/09/29 15:16

引用来自“wei2011”的评论

不知道中文处理怎么样
中文处理的问题在于分词,但是这方面的工具和资料都比较多,并不是问题
2017/09/29 15:14
学习学习
2017/09/29 13:44
不知道中文处理怎么样
2017/09/29 11:43
专业!
回复 @
{{emojiItem.symbol}}
返回顶部
顶部