56
回答
高手问答第 170 期 — 大数据时代:阿里巴巴大数据实践之路
华为云实践训练营,热门技术免费实践!>>>   

OSCHINA 本期高手问答(2017 年 9 月 13 日 — 9 月 19 日)我们请来了阿里数据团队@阿里数据 为大家解答关于大数据、数据挖掘、数据可视化、数据产品方面的问题。

阿里巴巴数据技术及产品部,定位于阿里集团数据中台,为阿里生态内外的业务、用户、中小企业提供全链路、全渠道的数据服务。作为阿里大数据战略的核心践行者,致力于“让大数据赋能商业,创造价值”。经过多年的实践,数据技术及产品部已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。通过这个体系,超过 EB 级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴自身的业务和外部千万用户的发展。

阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有高谈阔论。实际上,阿里巴巴一开始就自然生长在数据的黑洞中,并且被越来越多、越来越密集的数据风暴裹挟。从需求→设计→迭代→升华为理论,在无数次的迭代进化中,阿里巴巴对大数据的理解才逐渐成形,慢慢能够在将数据黑洞为我所用的抗争中扳回一局。《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。

本期问答内容:

  • 大数据
  • 数据挖掘
  • 数据可视化
  • 数据产品

或有其他相关问题,也欢迎大家积极提问。

为了鼓励踊跃提问,@博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《大数据之路:阿里巴巴大数据实践》一书。

购买链接: http://dwz.cn/6oTXQ6

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就大数据方面问题向@阿里数据 提问,请直接回帖提问。

举报
局长
发帖于2个月前 56回/3K+阅
共有56个答案 最后回答: 2个月前

@阿里数据 目前市面上讲述大数据架构及应用的书很多,关于这种分布式高并发的编程思想讲述却很少。系统选型结束,真正的业务怎么转换成代码,在JStorm系统上和平常的spring mvc 编程思想存在差异,希望能有相关文章和书籍,指导程序员编程,不知道会不会有?

--- 共有 1 条评论 ---
阿里数据分布式高并发编程使用JStorm还是平常的spring mvc ,主要还是要看具体的业务场景,使用JStorm比较简单,但是一定要注意通过队列来配合控制并发的bolt数,spring mvc需要自己实现更多环节的分布式编程。加入我们来实践?binhui.ybh@alibaba-inc.com 2个月前 回复

@阿里数据 貌似是第一个?我就想问问大数据在小公司小数据量的场景下有哪些应用呢?

--- 共有 1 条评论 ---
阿里数据那电商领域来看,每年双11期间,电商商家会有一个数据作战室的数据应用,是一个 大数据小公司的典型应用。除了有成交数据还有用户行为分析等 2个月前 回复
阿里在数据挖掘方面的技术选型?
--- 共有 1 条评论 ---
阿里数据如果是算法选型,需要根据业务需求,并没有特定的方法,只是现在会比较流行基于大规模图计算和embedding类的方法;如果是计算框架:分布式算法常用的框架有spark、MPI、parameter server,深度学习方面基于GPU的tensor flow框架是常用的选择。 ——ps算法团队 -Deep Algorithm-招人哦:deep_algorithm@alibaba-inc.com 2个月前 回复
@阿里数据 我想知道这本书里面会不会很多技术知识点只是阿里内部研发的框架,然后如果只是针对大数据常用开源技术原理,现在很多书都有说,这本书得优势在哪里,谢谢。
--- 共有 1 条评论 ---
阿里数据把我们10年来走过的坑告诉你,我想这是最大的优势吧 2个月前 回复

为什么发的链接是跳转到天猫页面,而不是当当,京东,亚马逊了?难道就因为这本书是阿里产的吗?

--- 共有 1 条评论 ---
一叶bu知秋有自己的平台为什么要用别人的,哈哈 2个月前 回复

@阿里数据 阿里自己的大数据技术底层大多数都是基于国外的开源大数据技术嘛?

--- 共有 1 条评论 ---
阿里数据不全是,阿里大数据技术底层有使用开源技术,也有使用阿里自研的技术,比如实时计算的blink是基于flink,离线计算的maxcompute是阿里自己研发的计算技术。产品技术团队招人哦:binhui.ybh@alibaba-inc.com 2个月前 回复

@阿里数据 您好,我想请教一下,阿里在大数据分析后的可视化这块有什么好的解决方案,比如对超过1亿数据进行聚类操作后,对聚类结果如何进行可视化的显示和分析?如果对大数据量的可视化分析实现上比较困难,是否有其他可以替代的方案?谢谢!

--- 共有 6 条评论 ---
OSC_zrcqjn 回复 @阿里数据 : 我爱开源中国 2个月前 回复
OSC_zrcqjn 回复 @Li_Peng : 开源中国 的问答是怎么做出来的 2个月前 回复
Li_Peng 回复 @阿里数据 : 非常感谢您的回答,之前也在技术大会上听过淘宝明风老师关于图计算的介绍,感觉受益良多。 2个月前 回复
阿里数据同时,阿里DT可视化团队也研发了一些聚类和关系图分布算法并应用到了阿里图计算架构之中,帮助用户更直观地了解图计算过程。 2个月前 回复
阿里数据没有可视化只有一个数据list 无法表达这种启发式信息,人只能接受聚类后的结果。而可视化的启发性在于,但不唯一,人可以通过可视化中node大小和远近发觉可能被merge的类和应该分的很开的类。这都是因为 聚类算法的结果并不唯一。参数变了 结果就变了。但有值得相信的地方。也会可能不对的地方。但人眼可以发现这种信息。因为人对聚类的概念很灵活。 2个月前 回复
顶部