word2vec 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
word2vec 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 Apache
开发语言 C/C++
操作系统 Linux
软件类型 开源软件
开发厂商 Google
地区 不详
提 交 者 红薯
适用人群 未知
收录时间 2013-08-24

软件简介

word2vec(word to vector)是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现。

来自维基百科对余弦距离的定义:

通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个 向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为 0;两个向量指向完全相反的方向时,余弦相似度的值为-1。在比较过程中,向量的规模大小不予考虑,仅仅考虑到向量的指向方向。余弦相似度通常用于两个向 量的夹角小于90°之内,因此余弦相似度的值为0到1之间。

可通过 SVN 获取代码:

snv co http://word2vec.googlecode.com/svn/trunk/

展开阅读全文

评论 (0)

加载中
#CS224n# #word2vec# 我写了一篇日志《CS224n Assignment 1》, 传送门:http://www.hankcs.com/nlp/cs224n-assignment-1.html
2017/06/18 12:01
回复
举报
#CS224n# #word2vec# 我写了一篇日志《CS224n研究热点4 词嵌入对传统方法的启发》, 传送门:http://www.hankcs.com/nlp/cs224n-improve-word-embeddings.html
2017/06/15 21:46
回复
举报
#CS224n# #word2vec# 我写了一篇日志《CS224n笔记4 Word Window分类与神经网络》, 传送门:http://www.hankcs.com/nlp/cs224n-word-window-classification-and-neural-networks.html
2017/06/09 22:55
回复
举报
#CS224n# #word2vec# 我写了一篇日志《CS224n笔记3 高级词向量表示》, 传送门:http://www.hankcs.com/nlp/cs224n-advanced-word-vector-representations.html
2017/06/08 22:03
回复
举报
#CS224n# #word2vec# 我写了一篇日志《CS224n研究热点2 词语义项的线性代数结构与词义消歧》, 传送门:http://www.hankcs.com/nlp/cs224n-word-senses.html
2017/06/08 20:33
回复
举报
#CS224n# #word2vec# 我写了一篇日志《CS224n研究热点2 词语义项的线性代数结构与词义消歧》, 传送门:http://www.hankcs.com/uncategorized/cs224n-word-senses.html
2017/06/08 20:29
回复
举报
#CS224n# #word2vec# 我写了一篇日志《CS224n笔记2 词的向量表示:word2vec》, 传送门:http://www.hankcs.com/nlp/word-vector-representations-word2vec.html
2017/06/07 21:00
回复
举报
#CS224n# #word2vec# 我写了一篇日志《CS224n研究热点1 一个简单但很难超越的Sentence Embedding基线方法》, 传送门:http://www.hankcs.com/nlp/cs224n-sentence-embeddings.html
2017/06/07 16:34
回复
举报
#TensorFlow# #word2vec# 我写了一篇日志《谷歌深度学习公开课任务 5: Word2Vec&CBOW》, 传送门:http://www.hankcs.com/ml/cbow-word2vec.html
2017/03/14 06:30
回复
举报
更多评论
暂无内容
发表了博客
2018/10/12 12:36

Word2vec

文章结构: 1、词的独热表示 2、词的分布式表示 3、词嵌入 4、两种训练模式 5、两种加速方法 6、word2vec和word embedding的区别 7、小结 1、词的独热表示 到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度...

0
0
发表了博客
2019/08/14 15:07

Word2Vec

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/qq_28840013/article/details/89681499 这里,我们不讲word2vec的原理(其实是还了解不透彻,以后明白了再写,大家在阅读本文之前,可以先简单了解一下其推理过程),就只了解其参数和输入...

0
0
发表了博客
2019/03/15 15:49

Word2vec

one-hot表示 主要问题 无法准确表达不同词之间的相似度,没有任何语义信息 以下内容主要摘抄自 来斯惟的博士论文基于神经网络的词和文档语义向量表示方法研究 CS224n的notes Yoav Goldberg的word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method 分布假说(distributional hypothes...

0
0
发表于AI & 大数据专区
2019/11/24 17:14

认识word2vec

论文 Distributed Representations of Words and Phrases and their Compositionality Natural Language Processing (almost) from Scratch Efficient estimation of word representations in vector space word2......

0
0
发表了博客
2019/01/05 22:06

word2vec初探

在自然语言处理入门里我们提到了词向量的概念,tf-idf的概念,并且在实际的影评正负面预测项目中使用了tf-idf,取得了还算不错的效果. 这一篇,我们来尝试一下使用来自google的大名鼎鼎的word2vec。 gensim是一个常用的python自然语言处理库.其中封装了c语言版本的word2vec。 gensim的安装很简单,pip install gensim即可. 直...

0
0
发表了博客
2018/01/09 13:43

word2vec概述

既然是概述,那么我也只会在文中谈一点关于 Word2Vec 的思想和大概的方法。对于这个算法,如果一开始学习就深入到算法细节中,反而会陷入局部极值点,最后甚至不知道这个算法是干嘛的。在了解算法大概的思路后,如果有进一步研究的必要,再去深究算法细节,这时一切都是水到渠成的。 先申明,由于我不是做 NLP 相关的,因...

0
0
发表了博客
2018/11/15 14:26

word2vec的理解

在学习LSTM的时候,了解了word2vec,简单的理解就是把词变成向量。看了很多书,也搜索了很多博客,大多数都是在word2vec的实现原理、数学公式,和一堆怎么样重新写一个word2vec的python代码。对于我这种数学弱鸟级别的人来说,这显然是没有什么意义的,更别说价值了。我所需要的就是理解几个简单的问题: 1、什么是word2...

0
0
发表了博客
2019/04/16 22:42

Word2vec教程

Word2vec Tutorial RADIM ŘEHŮŘEK 2014-02-02 GENSIM, PROGRAMMING 157 COMMENTS I never got round to writing a tutorial on how to use word2vec in gensim. It’s simple enough and the API docs are straightforward, but I know some people prefer more verbose formats. Let this post be a tutorial and a...

0
0
发表了博客
2018/04/05 14:21

Word2Vec总结

摘要:   1.算法概述   2.算法要点与推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子   6.适用场合 内容:   1.算法概述   Word2Vec是一个可以将语言中的字词转换为向量表达(Vector Respresentations)的模型,Word2vec可以将字词转为连续值的向量表达,并且其中意义相近的词将被映射到向量...

0
0
发表于AI & 大数据专区
06/22 20:21

白话Word2Vec

向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 只说人话,不砌公式,让非数学专业读者能看明白的Word2Vec。 1. Word2Vec的作用 顾名思义,Word2Vec就是把单词转换成向量。它本质...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2019/05/12 22:32

中文分词的语料库中的词是如何的生成的?

我有多篇关于汽车类的文章,文章中多次提到"本田雅阁"关键词,再语料库中没有该词语的情况下分词,会被切分成"本田" / "雅阁",怎么在不使用人工添加情况下,把"本田雅阁"提取出来,存入语料库,为以后的分词提供有效语料库关键词呢?

1
0
发表了问答
2014/08/14 08:32

求教oschina中的新闻推荐是利用word2vec的吗

@红薯 你好,想跟你请教个问题:在oschina中如何推荐相关新闻的?是利用word2vec吗?求知道。

1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
17 收藏
分享
返回顶部
顶部