开源机器学习项目 Oryx

Apache
Java
跨平台
2014-03-02
红薯

Oryx的目标是帮助Hadoop用户搭建并部署能够实时查询的机器学习模型,例如垃圾邮件过滤和推荐引擎。随着数据的不断流入,Oryx还将支持自我更新。

无论从建模还是部署,Oryx都可以随需扩展,Owen认为这是Oryx与Hadoop的传统“甜蜜点”——探索性分析和运营性分析最大的不同。

Owen认为传统的在Hadoop上部署机器学习的技术——Apache Mahout已经走到尽头。

“Mahout受制于第一代MapReduce只能处理批任务的局限,用户需要做大量的工作才能搭建并让机器学习系统运转起来,而Myrrix重写 了Mahout,解决了所有老问题。如果Mahout还有药可救,Cloudera就不会收购Myrrix。Oryx差不多有90%的代码都来自 Myrrix,也有一些代码来自Cloudera”Owen说道。

人人都能使用的开源推荐引擎?

Oryx的定位不是机器学习算法的程序库,Owen关注的重点有四个:回归、分类、集群和协作式过滤(也就是推荐)。其中推荐系统非常热门,Owen正在与几个Cloudera的客户合作,帮他们使用Oryx部署推荐系统。

将Oryx打造成开发推荐系统的标准化工具的做法将使这个项目赢得极大关注,因为推荐系统几乎已经成了主流网站的标配,无论是电商还是内容网站都需要推荐系统提高网站的用户体验和转化率。但是推荐引擎技术目前面临的最大问题就是缺乏标准和开源工具。

致力于推荐技术标准化的公司不仅是Oryx一家,另外一家云计算创业公司Mortar Data也在积极推动用户推荐引擎技术的开发,并展现其开源推荐框架的优点。其他一些公司注入Expect Labs虽然没有开源,但试图通过人工智能API接口实现推荐系统的自动化。

目前还不是一个产品

Owen认为Cloudera的所有客户(以及绝大多数的Hadoop用户)最终都想要部署运营型机器分析系统——不仅仅是推荐,Oryx将来有可能成为实现工具,但目前Oryx还只是一个实验性项目。

目前Owen还在花费大量时间担当Apache Spark目的贡献者,他想重写Oryx,将Spark而不是MapReduce作为主要的处理框架,因为Spark已经成为下一代大数据应用的热门技术。由于性能 和速度优于MapReduce,且更加容易使用,Spark目前已经拥有一个庞大的用户和贡献者社区。这意味着Spark更加符合下一代低延迟、实时处 理、迭代计算的大数据应用的要求,包括基于Oryx开发的实时机器学习系统。

介绍内容来自IT经理网

加载中

评论(2)

123456嘎嘎嘎
123456嘎嘎嘎
000 #Oryx#
必联
Spark Oryx

暂无资讯

暂无问答

Wuawua.com重新起航(2)--知识获取

网页 = 知识?没有这么简单? 搜索引擎的TF-IDF关键字搜索只能表明某个网页包含某个关键字,并不代表该网页是你想要的知识。例如“深度学习”,可能返回包含“深度学习”的网页,是你想要的吗...

2014/09/09 21:08
17
0
机器学习的11个开源项目

机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于Python、Java等的很多机器学习算法基本都被前人实现过很多次了。这些算法在...

2015/04/11 15:58
183
0
Wuawua.com重新起航(1)--想做个知识共享的网站

wuawua.com陆陆续续做了几年,没什么起色。 wuawua.com来源于什么? 几年前,同事经常说内部的xx文档找不到,问我有什么好办法?但是正在负责一个QCC(Quality Control Circle)项目,简单问...

2014/09/08 09:50
88
0
TOP 10 开源的推荐系统简介

最 近这两年推荐系统特别火,本文搜集整理了一些比较好的开源推荐系统,即有轻量级的适用于做研究的SVDFeature、LibMF、LibFM等,也有重 量级的适用于工业系统的 Mahout、Oryx、EasyRecd等,...

2014/04/29 22:50
525
1
革命Hadoop,Spark搅热云计算大数据市场

作为下一代云计算及大数据的核心技术,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上。

2014/06/12 22:14
107
0
JBPM简介

1. JBPM简介 JBPM,全称是Java Business Process Management(业务流程管理),它是覆盖了业务流程管理、工作流、服务协作等领域的一个开源的、灵活的、易扩展的基于java实现的流程业务处理框架...

2012/09/26 23:06
474
1
Spark 【数据挖掘平台介绍】 - Spark崛起迹象

一切都有迹可循,Spark目前崛起的 VS MapReduce的衰败

2014/10/23 15:57
243
0
Hadoop 问题记录

整理以前的笔记,顺便传网上备份。

2015/06/30 16:45
158
0
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节 ①

一、MapReduce已死,Spark称霸 由于Hadoop的MapReduce高延迟的死穴,导致Hadoop无力处理很多对时间有要求的场景,人们对其批评越来越多,Hadoop无力改变现在而导致正在死亡。正如任何领域一样...

2014/12/12 22:42
289
0
jBPM5与Activiti5比较

jBPM5与Activiti5比较 主要相似之处: 都是BPMN2过程建模和执行环境。 都是BPM系统(符合BPM规范)。 都是开源项目-遵循ASL协议( Apache的 软件许可)。 都源自JBoss(Activiti5是jBPM4的衍...

2012/11/07 13:38
2K
1

没有更多内容

加载失败,请刷新页面

返回顶部
顶部