李元佳:漫谈 Greenplum 开源背后的动机

oschina
 oschina
发布于 2015年10月30日
收藏 32

作者:李元佳  
转载自微信号:Postgres

这几天最大的消息莫过于 Greenplum 的开源,年初开始 Pivotal 就宣布了 greenplum 的开源,经过大半年的翘首等待,终于在十月底在欧洲的 Postgres 大会宣布开源,并兑现在 Github 上开放代码(https://github.com/greenplum-db/gpdb ),社区的官网为 http://greenplum.org/, 其官方博客也有提到相关事项。代码是采用 Apache 许可,今天已经有社区的朋友尝鲜从社区取下代码,在 Greenplum 上测试了 tpch 的性能,虽然测试比较粗糙但是结果基本和商业版的一样,印证了之前 greenplum 将走向全开源的消息。虽然里面关键的新一代优化器 orca 还没有看到代码,但据消息这部分后续也会开出来,估计这个是其对这个最核心资产的一个谨慎的操作。

总体的印象来看,其采取开放的 Apache 许可,代码基本上无保留开源,这次的开源更大程度是公司层面的战略行为,而不是简单的市场推广的战术行为。

Greenplum 的开源,在我看来有几个驱动力。

首先是受其 cloud foundry 开源战略成功的驱动。pivotal在整个emc联邦的定位来说是偏中间件这一层,emc是存储,vmware是虚拟化,pivotal要搞定的是PaaS。而pivotal的业务上来说,要把云和大数据这两个支柱搞定,才能把emc联邦的疆域稳定下来。云这一层来说vmware已经是私有云的霸主,而剩下的上层PaaS这一层如果落入他人之手对其来说也是一个大威胁,所以PaaS这一层也是志在必得。鉴于当时已经在市场有很多对手,2011年的时候cloudfoundry启动是以开源的模式来去做,把IBM和HP拉上。这个战略取得了出人意料的巨大成功,现在CF几乎要变成了PaaS的事实标准,IBM也推出了基于CF的bluemix产品,而pivotal在今年发布的2014年的财报,极为惹眼的标题:破纪录的2014年,史上最快的开源产品销售增长( http://finance.yahoo.com/news/pivotal-cloud-foundry-reports-record-160000128.html )在短短的一年里,就获得4千万美金的软件销售收入,另外也获得了财富500强中的100个客户!这对于基础软件来说,基本是神话。说了这么多,无外乎就是给大家强调一下,整个pivotal在cloudfoudry的巨大成功下,对于开源的认识已经到了商业战略的层次,已经不需要去讨论要不要开源,开源已经成为杀手级的武器!在此背景下我们来去理解greenplum的开源才更容易理解。

其次,Pivotal 的大数据战场,需要新的战略调整。上面提到,除了云以外,Pivotal的战略重心是大数据,Pivotal除了有自己的hadoop发行版以外还有greenplum作为大数据最重要的资产。但是大数据整个市场都不是太理想,Hadoop发行版除了有Cloudera,Hortonworks,MapR这三个第三方发行版以外,还有Pivotal,IBM,Intel这些厂商本身的发行版,市场最突出的问题是碎片化(fragmented),Hadoop的门槛低,厂商林立,同质化严重,不仅仅难以溢价出售,传统大厂商靠溢价销售基础软件获取超额利益的路子开始行不通;更为重要的是越来越多的客户倾向于使用第三方独立的发行版,道理不难理解,用户更希望的是Linux生态里面有Redhat和SuSe这样的发行厂商,而不希望类似AIX或者是Windows Server这种由厂商控制的生态,这个更加加剧了厂商面临的困境。Intel由于其发行版的糟糕市场表现,开始陆续解散自己的Hadoop团队,国内的星环就是在这个背景下诞生,2014年Intel重金投资Cloudera 7.4亿美金取得18%的股权,Dell也投入Cloudera的阵营,HP、微软、Teradata则倾向于直接使用Hortonworks的发行版,HP还投资了Hortonworks。但是Cloudera的优势明显,营收是Hortonworks的将近一倍,Cloudera俨然有成为Hadoop生态的新的霸主的阵势,市场格局开始慢慢固化,Intel有可能是这场战役的赢家。在这样的市场格局里面,Pivotal的困境可想而知,HD的发行版肯定需要重新调整策略,所以Pivotal联合IBM、GE等15个弱势玩家, 在今年3月宣告成立ODP(Open Data Platform)组织,本质上是希望通过支持Hortonworks抗衡Cloudera,取得平衡。但是这个赌注的胜算并不明显,Cloudera的CEO甚至公开嘲讽ODP,说其出现本身就是Cloudera的一个胜利( https://gigaom.com/2015/03/03/cloudera-ceo-declares-victory-over-big-data-competition/   ),Greenplum的开源正是作为ODP的砝码而出现,Pivotal决定把HD发行版、Gemfire、HAWQ还有Greenplum开源,所以从这个角度我们看到,Greenplum的开源本身,就是Pivotal希望赢回这场战役的一个砝码,对其而言,越多人用越好,没有必要隐藏任何功能。

其实在 Greenplum 开源之前,MPP 数据库的日子也并不好过,也是市场碎片化,每个厂家也就区区几千万美金的营收,市场难以有大的突破,传统丰厚的 DW 市场也难以打入,Hadoop 生态又是以开源为主,甚至很多类似 Impala 这样的产品也在做其类似的功能,传统的打不开,新市场又难以全面打开,而且竞争重重,进退两难。而Greenplum十多年来的架构也无力进行大的调整。正是在这样的背景下,倒不如开源,盘活大局。下面这篇文章称其举动为 open sourcing code is the modern graceful way to retire an unprofitable product line (http://skylandtech.net/2015/02/24/thinking-about-the-pivotal-announcements/ )

Greenplum 的开源应该是相对比较激进和带有攻击性(aggressive)一着棋,成败难料,但对于整个生态会有比较大的影响。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:李元佳:漫谈 Greenplum 开源背后的动机
加载中

精彩评论

吐槽的达达仔
吐槽的达达仔
绝大部分公司,直接greenplum就能解决大数据的问题。
上hadoop简直是庸人自扰,但是毕竟开源。。。
现在GP开源了,肯定不搞hadoop。

就算以后数据hold不住了,再上hadoop,也来得及。。
GP绝对是个颠覆者。。

最新评论(20

grail
grail

引用来自“tomrichdow”的评论

【上集】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
百度网盘下载:http://pan.baidu.com/s/1eQJFXZ0 密码:kdx9

【下集】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
百度网盘下载:http://pan.baidu.com/s/1o7Z9zR0 密码: 54jw
NB
t
tomrichdow
【上集】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
百度网盘下载:http://pan.baidu.com/s/1eQJFXZ0 密码:kdx9

【下集】基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析
百度网盘下载:http://pan.baidu.com/s/1o7Z9zR0 密码: 54jw
sharper
sharper
不错
巢鹏
巢鹏
这几天李大哥在朋友圈狂发GP,要马上转过去绝对是不可能的。看看有没有人先去踩坑,然后看有没有新项目适合吧。
宏哥
宏哥

引用来自“吐槽的达达仔”的评论

绝大部分公司,直接greenplum就能解决大数据的问题。
上hadoop简直是庸人自扰,但是毕竟开源。。。
现在GP开源了,肯定不搞hadoop。

就算以后数据hold不住了,再上hadoop,也来得及。。
GP绝对是个颠覆者。。

引用来自“乌龟壳”的评论

有些数据库做不了或者做起来不方便的事情,比如ETL,光PG怎么行?

引用来自“宏哥”的评论

greenplum 这么玩的话, 可以把要分析的日志数据, 直接导入进去,
剩下就是用sql 自由查询了。

ETL是数据准备, 和分析是两回事

引用来自“乌龟壳”的评论

我说的就是数据准备这一块,那么多奇葩的数据源,还是写代码方便。我没特指hadoop。
的确
乌龟壳
乌龟壳

引用来自“吐槽的达达仔”的评论

绝大部分公司,直接greenplum就能解决大数据的问题。
上hadoop简直是庸人自扰,但是毕竟开源。。。
现在GP开源了,肯定不搞hadoop。

就算以后数据hold不住了,再上hadoop,也来得及。。
GP绝对是个颠覆者。。

引用来自“乌龟壳”的评论

有些数据库做不了或者做起来不方便的事情,比如ETL,光PG怎么行?

引用来自“宏哥”的评论

greenplum 这么玩的话, 可以把要分析的日志数据, 直接导入进去,
剩下就是用sql 自由查询了。

ETL是数据准备, 和分析是两回事
我说的就是数据准备这一块,那么多奇葩的数据源,还是写代码方便。我没特指hadoop。
javasql
javasql
试用了一下Greenplum,我认为99%的企业可以暂时不用理会NoSQL了。
宏哥
宏哥

引用来自“吐槽的达达仔”的评论

绝大部分公司,直接greenplum就能解决大数据的问题。
上hadoop简直是庸人自扰,但是毕竟开源。。。
现在GP开源了,肯定不搞hadoop。

就算以后数据hold不住了,再上hadoop,也来得及。。
GP绝对是个颠覆者。。

引用来自“乌龟壳”的评论

有些数据库做不了或者做起来不方便的事情,比如ETL,光PG怎么行?
greenplum 这么玩的话, 可以把要分析的日志数据, 直接导入进去,
剩下就是用sql 自由查询了。

ETL是数据准备, 和分析是两回事
宏哥
宏哥

引用来自“吐槽的达达仔”的评论

绝大部分公司,直接greenplum就能解决大数据的问题。
上hadoop简直是庸人自扰,但是毕竟开源。。。
现在GP开源了,肯定不搞hadoop。

就算以后数据hold不住了,再上hadoop,也来得及。。
GP绝对是个颠覆者。。

引用来自“乌龟壳”的评论

有些数据库做不了或者做起来不方便的事情,比如ETL,光PG怎么行?

引用来自“吐槽的达达仔”的评论

GP本身就是类似个HADOOP 平台,ETL直接在上面做都可以。完全没有问题。数据库做什么不方便??绝大部分的应用都能支持。
这个路径比hadoop先进多了
只要分别机器做数据导入就可以了
javasql
javasql

引用来自“吐槽的达达仔”的评论

绝大部分公司,直接greenplum就能解决大数据的问题。
上hadoop简直是庸人自扰,但是毕竟开源。。。
现在GP开源了,肯定不搞hadoop。

就算以后数据hold不住了,再上hadoop,也来得及。。
GP绝对是个颠覆者。。

引用来自“宏哥”的评论

访问接口是不是和 pg 统一的?

引用来自“javaflex”的评论

统一的!几乎所有的PostgreSQL客户端工具及PostgreSQL应用都能运行在Greenplum平台上!

引用来自“sunday12345”的评论

我记得insert,update都貌似不支持。。很久前简单试过,不知道是不是没弄好~
你说的是“外部表”吧
返回顶部
顶部