授权协议: LGPL-2.1
开发语言: Python
操作系统: 跨平台
收录时间: 2017-02-22
提 交 者: 两味真火

Gensim是一个相当专业的主题模型Python工具包。在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和特性,角度更客观。gensim就是  Python 里面计算文本相似度的程序包。

示例代码:

针对商品评论和商品描述之间的相似度,怎么使用gensim来计算?

原理

1、文本相似度计算的需求始于搜索引擎。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。

2、主要使用的算法是tf-idf

tf:term frequency词频

idf:inverse document frequency倒文档频率

主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

  • 第一步:把每个网页文本分词,成为词包(bag of words)

  • 第三步:统计网页(文档)总数M。

  • 第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)

  • 第四步:重复第三步,计算出一个网页所有词的tf-idf 值。

  • 第五步:重复第四步,计算出所有网页每个词的tf-idf 值。

3、处理用户查询

  • 第一步:对用户查询进行分词。

  • 第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。

4、相似度的计算

使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。

展开阅读全文

代码

Gensim 的相关博客

Gensim?

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括T...

gensim word2vec

官方 demo 文件有点大, 可以用迅雷或者网盘下载下来后, 放到这个文件夹下 C:\Users\Ace\gensim-data\word2vec-google-news-30...

Gensim入门教程

What is Gensim? Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表...

windows安装gensim

一、什么是gensim gensim是一个python的科学库,gensim包含了TF-IDF、随机投影、word2vec和document2vec算法的实现,分层Dir...

初识gensim

介绍 Gensim是一个用于从文档中自动提取语义主题的Python库,足够智能,堪比无 痛人流。 Gensim可以处理原生,非结构化的数值...

gensim导入warning

In [1]: from gensim.test.utils import common_texts, get_tmpfile d:\python_work_space\ai_learning\.env\lib\site-packag...

gensim word2vec实践

语料下载地址 # -*- coding: utf-8 -*- import jieba import jieba.analyse # suggest_freq调节单个词语的词频,使其能(或...

gensim自然语言处理

参考代码 ChineseClean_demo1.py: # -*- coding:utf-8 -*- import xlrd import xlwt ''' python3.4 ''' # file 表示...

Gensim 的相关问答

还没有任何问答,马上提问

评论 (0)

加载中
更多评论
0 评论
88 收藏
分享
在线直播报名
返回顶部
顶部