spark-mlib 中Kmeans的输入问题

ytwd123 发布于 2015/06/25 21:42
阅读 927
收藏 0

@oldpig 你好,想跟你请教个问题:你好,最近在研究spark 的 mlib . 想把之前mahout的kmeans 转换为 spark的kmeans , 知道spark有kmeans 算法, 官方也有例子, 目前问题是: 数据源的问题。, spark的kmeans的数据源要求是向量, 而我们想把多篇文章转换为空间向量,如何转换呢?请教。是一篇文章一个向量? 主要是如何转换?

比如说:一个目录下有很多文件,每个文件都是一篇文章,文章中是经过分词过的结果。怎么使用spark的Kmeans。如何计算相关性新闻。

加载中
0
huangdou
huangdou

你的问题搞定了吗?目前我也堵在这个地方了,不过我找到了一些例子,但不是很理解,推荐给你把。

http://blog.csdn.net/suqier1314520/article/details/40785687

http://spark.apache.org/docs/latest/mllib-feature-extraction.html

返回顶部
顶部