高手问答第 266 期 —— 带你从 0 到 1 掌握大数据技术

白开水不加糖 发布于 08/23 10:04
阅读 5K+
收藏 10

在人工智能时代,不论是否从事大数据开发,掌握大数据的原理和架构早已成为每个工程师的必备技能。如果未来是面向AI编程的,希望软件工程师不要把AI当作什么万能的东西。当机器学习结果出现问题的时候,我们既不要陷入某种不可知的“玄学”之中,也不要无谓地抱怨什么“人工智障”,而是应该积极参与到问题的讨论、分析和解决中去。

将来,数据会逐渐成为公司的核心资产和主要竞争力,公司的业务展开和产品进化也会朝着如何利用好数据价值的方向发展。如果你不懂大数据和机器学习,可能连最基本的产品逻辑和商业意图都搞不清楚。如果只懂编程,那么你的生存空间会越来越窄,发展也会处处受限。所以即使自己不做与大数据和机器学习相关的开发,每个程序员也应该懂大数据和机器学习。

OSCHINA本期高手问答(月 23 日- 29 )我们请来了 @大数据李智慧 和大家一起探讨关于大数据技术相关的问题。

本期问答内容:

1.大数据的应用场景

2.Hadoop大数据原理与架构

3.程序员应该如何学好大数据技术

4.大数据开发的性能优化

5.大数据算法与机器学习

或者其它关于大数据技术相关问题,也欢迎大家积极提问!

嘉宾简介

李智慧,同程旅行交通首席架构师。曾任阿里巴巴、Intel架构师,长期从事分布式系统与大数据开发,Apache Spark 代码贡献者,腾讯云 TVP,著有畅销书《大型网站技术架构:核心原理与案例分析》。

为了鼓励踊跃提问,@博文视点  会在问答结束后从提问者中抽取 5 名幸运会员赠予《大数据技术架构:核心原理与应用实践》一书。

购买链接:https://item.jd.com/12893869.html

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就相关问题向 @大数据李智慧  提问,直接回帖提问即可。

加载中
0
白开水不加糖
白开水不加糖

高手问答第 266 期 —— 带你从 0 到 1 掌握大数据技术

@feelings777@hncscwc@znz@xiaour@开源中国首席尿黄师

恭喜以上五位网友分别获得《大数据技术架构:核心原理与应用实践》图书一本
请私信 @白开水不加糖   告知快递信息(格式:姓名+电话+地址)

2
Morty777
Morty777

@大数据李智慧 李老师好 , 有几个问题向您 请教

  • 云计算与大数据是什么关系
  • 企业大数据如何起步?(企业到多大规模的数据后才适合开展大数据)
  • 大数据的发展(从 自建开源Hadoop数据湖架构,原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主,存储和计算一体 ,到现在丰富的云上托管数据入湖,以及各种 分析引擎,中小企业是否有必要自建大数据一套体系)
  • 程序员应该如何学好大数据技术 (1从其他业务程序转到大数据需要掌握哪些基础,2是否需要掌握全套的 ,从采集到 清洗到存储 , 从统计到分析挖掘 以及后期相关ai 机器学习)
大数据李智慧
大数据李智慧
4 首先程序员需要了解完整的大数据技术体系,知道在数据生产、应用的过程中有哪些环节,起什么作用,背后的思想和原理是什么,然后才能有的放矢,找到适合自己的定位,深入学习和实践,成功转型。学习完整的大数据技术体系,可以阅读《大数据技术架构:核心原理与应用实践》。
大数据李智慧
大数据李智慧
3 我的建议是中小企业开始的时候,没必要自建大数据体系,一方面是成本太高,另一方面就是不确定能不能通过大数据获益。云计算可以在初始阶段大幅降低成本,成熟的云厂商在业务落地方面也可以提供很多有益的实践和模式,帮助中小企业快速落地大数据。
大数据李智慧
大数据李智慧
2 某种意义上,大数据是一种解决问题的思维方式,是一种把所有的数据关联起来发现其价值的技术体系。所以企业用不用大数据技术其实和数据规模没有关系,能不能用大数据解决问题,创造价值才是关键。当然,前提是对自己的数据,自己的业务场景,大数据技术体系有深刻的了解才能发现其中的价值。
大数据李智慧
大数据李智慧
1 云计算和大数据都是分布式技术的分支体系,云计算一般指通过远程(云端)分布式技术提供弹性的数据计算能力,大数据一般指通过分布式技术解决大规模数据存储和计算的问题。两者结合,可以通过云端提供大数据存储和计算,就是大数据云,云计算可以包括大数据,大数据也可以在云端。
0
mickelfeng
mickelfeng

@大数据李智慧  好大的数据才算大数据? 做大数据需要哪些技术栈?

大数据李智慧
大数据李智慧
一般说来,人们提到大数据的时候,指的是包括数据、技术、平台、算法、应用场景在内的完整的生态体系,不止是数据本身。 数据本身没有好坏之分,有的数据更容易从中挖掘出业务价值,有的数据更难一点。只有未发现价值的数据,没有无价值的数据。 大数据需要哪些技术栈可以参考这本书哈~《大数据技术架构:核心原理与应用实践》,完整介绍大数据产品、大数据平台、大数据分析、大数据算法,全部大数据知识技术体系~
0
hncscwc
hncscwc

@大数据李智慧

李老师,你好,想咨询个问题

当前大数据技术涉及的东西众多,例如hadoop、spark&flink、hive&trino、clinkhouse等等,每个组件要从使用到对组件原理的深入都需要花非常多的时间才能算是到入门或者说能掌握其中的原理,而如果想要基于这些组件做好架构,那时间就更长了,

那么对于一个没有什么相关经验的,怎样快速的切入到大数据这个赛道?

大数据李智慧
大数据李智慧
大数据技术众多,但是核心思想和原理是有共同之处的,学好大数据一方面需要实践,一方面需要从技术原理的角度思考大数据技术之间的关系,这样可以在学习过程中起到事半功倍的效果。《大数据技术架构:核心原理与应用实践》从大数据技术原理切入,讨论大数据技术核心技术的关键点,希望对你有帮助。
0
开源中国首席罗纳尔多
开源中国首席罗纳尔多

@大数据李智慧 您好,请问JavaWeb大数据需要学习什么内容?现在都用哪些技术栈和框架?

大数据李智慧
大数据李智慧
学大数据有两个方向,一个是大数据开发,一个是算法应用,java背景的话,大数据开发更有优势一点,特别是大数据平台开发。《大数据技术架构:核心原理与应用实践》第五章专门讲述大数据平台开发,可以看看。
0
LeoXu
LeoXu

@大数据李智慧 目前在考虑从前端转大数据方向,想请教下大佬,这条职业路径该如何走比较好?谢谢

大数据李智慧
大数据李智慧
大数据技术其实是分布式技术的一种,偏后端技术一点;此外还有大数据应用,就是通常说的机器学习、数据挖掘、数据分析。看你的的优势和兴趣,如果编程能力更强,就搞大数据技术方向;如果对业务理解更有洞察力,对数据更敏感,就搞大数据应用。
0
pyboy58
pyboy58

@大数据李智慧  这几年大数据架构变化很快,我们应该如何选择? 从sparkJar开发到sparksql,再到flinkJar,flinkSql,  目前的大数据的实时计算,

1.应该如何搭建项目架构??怎么选型比较好? spark还是

2.怎么不停地学习不同的新的大数据框架?

pyboy58
pyboy58
回复 @大数据李智慧 : 我们公司晚上经常培训新框架,基本上的组件可以追上阿里腾讯了
大数据李智慧
大数据李智慧
1 spark和flink各有千秋,我觉得技术上差别不大,社区也都比较活跃,选哪个都可以。 2 各种大数据框架背后的架构原理其实相同的,其实不需要不停学各种大数据框架,或者说理解了大数据技术背后的原理,精通一个大数据框架,其他框架很快就可以轻车熟路了。学习大数据技术架构原理,推荐《大数据技术架构:核心原理与应用实践》
0
znz
znz

@大数据李智慧李老师您好,大数据目前是更关注架构、技术核心还是应用?现在很多行业都号称用上了大数据,一看技术内容其实都差不多,着实有点难以分辨李鬼李逵

大数据李智慧
大数据李智慧
如果没用大数据,最后也没产生什么价值,却号称用了大数据,我觉得人艰不拆吧~~ 如果没用大数据,最后效果还不错,也号称用了大数据,我觉得是扩展的大数据的边界,应该祝贺和学习~~
大数据李智慧
大数据李智慧
我觉得没必要分辨李逵还是李鬼,白猫黑猫抓住老鼠就是好猫。用不用大数据其实不重要,重要的还是看有没有价值。
0
贺小皮蛋
贺小皮蛋

来看看 目前就用过clickhouse   哈哈 不了解的区域

0
贺小皮蛋
贺小皮蛋

没注意看  原来是智慧老师  我貌似以前参加过老师的一次论坛 印象中flower 是不是老师的开源项目

大数据李智慧
大数据李智慧
是的,欢迎参与Flower开源~
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部