OSC 第 119 期高手问答 -- 如何学习大数据与机器学习 ?

开源中国股瞎 发布于 2016/07/12 17:33
阅读 4K+
收藏 12
OSCHINA 本期高手问答(7月13日- 7月22日) 我们请来了@刀刀老高 (高扬)@azheng333 (卫峥)@wilsonyin (尹会生)为大家解答关于如何学习大数据与机器学习方面的问题。

@刀刀老高 (高扬),金山软件西山居资深大数据架构师与大数据专家,有多年编程经验(多年日本和澳洲工作经验)和多年大数据架构设计与数据分析、处理经验,目前负责西山 居的大数据产品市场战略与产品战略。专注于大数据系统架构以及变现研究。擅长数据挖掘、数据建模、关系型数据库应用以及大数据框架Hadoop、 Spark、Cassandra、Prestodb等的应用。负责西山居紫霞系统——大数据日志处理系统的系统架构与设计工作。

@azheng333 (卫峥),西山居软件架构师,多年的软件开发和架构经验,精通C/C++、Python、Golang、JavaScript等多门编程语言,近几年专注于数 据处理、机器学算法的研究、应用与服务研发。曾在新浪网平台架构部负责音视频转码平台的架构和研发工作,为新浪微博,新浪微盘,秒拍等提供视频在线观看服务。51CTO讲师。

@wilsonyin (尹会生),西山居高级系统工程师。曾任新浪研发中心技术经理、北京尚观科技高级讲师。在新浪广告、微博广告、西山居大数据平台架构中担任关键角色。擅长企业 集群解决方案和内核调优经验,并提供高性能和高可用性集群咨询服务。近4年专注于Hadoop集群、Spark集群在推荐系统和BI相关领域的解决方案。

三人合著有《白话大数据与机器学习》一书。

本书为资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅;以降低学习曲线和阅读难度为宗旨,重点讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,清晰勾勒出大数据技术路线与产业蓝图。

为了鼓励踊跃提问,@华章图书 会在问答结束后从提问者中抽取 5 名幸运会员赠予《白话大数据与机器学习》一书。

购买链接:http://item.jd.com/11932929.html

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就 如何学习大数据与机器学习 方面问题向 @刀刀老高 (高扬)@azheng333 (卫峥)@wilsonyin (尹会生)提问,请直接回帖提问。
加载中
0
华章
华章

OSC 第 119 期高手问答 -- 如何学习大数据与机器学习 ?(公布中奖名单)

@fhugg  @SVD  @p2ng  @迅雷丅載緈福  @iamcoder

恭喜以上五位网友获得《白话大数据与机器学习》一本

请私信@华章 告知快递信息(格式:姓名+电话+地址+邮编

2
吹乱我的发
吹乱我的发
@azheng333 : 请问不同的语言在数据处理以及算法计算过程中性能的差别是否很大?
刀刀老高
刀刀老高
你好。 就目前的经验来看,使用C或者C++的效率确实要比PYTHON高一些,但是没有差到一个数量级的差别。在生产中可以考虑用硬件数量进行弥补,毕竟PYTHON程序的维护成本比C或C++感觉还是要略低一些。 一家之言,仅供参考。
1
mahengyang
mahengyang

@azheng333 : 做电商个性化推荐系统的时候,看过《集体智慧编程》和项亮的《推荐系统实践》,工作中主要使用R语言做数据可视化,Ruby写算法原型,Akka框架处理大量的数据,深感大数据之不易,一个简单的协同过滤算法都要折腾N久,数据清洗耗时费力,离线评测时根据召回率、热门度、覆盖率指标等反复调整算法参数,过程繁琐,不知道高手有没有什么好的实践经验,上面这两本书里写的更多的是知识点,没有对大数据处理的整个流程给予指导,希望高手能从数据收集、数据清洗到离线评测、在线反馈等一系列的过程给予指导,非常感谢

刀刀老高
刀刀老高
你好。 收集和清洗这些步骤其实不是很容易出问题,尤其是在掌握了技巧以后。 评测或者方案改进相关的建议采用AB测试,也有叫AB对照的,在试探和比对的过程中比较有效。现在很多系统,尤其是一些画像系统的问题是没有形成数据闭环,也就是没办法接收到相应的转化率反馈来进行进一步对比调整。 不过你说的这是一个比较综合的问题,可能很难几句话说清楚,具体情况还要具体分析,有机会的话我们再做深入交流吧。
1
刀刀老高
刀刀老高

引用来自“迅雷丅載緈福”的评论

@azheng333 :大师您好,终于把回复从头看到尾了,还是学了不少单词。我是个5年的web,前后端开发都有。虽然大数据已经到来这么些年了,但我还是没怎么接触到。目前公司规模不大,数据量也才百万级。最近也正好看了点点大数据的书,感觉云里雾里的(个人数学基础不好,理解一些算法有点吃力)。我也想在大数据上有所学习及作为,对我的职业生涯也算是个正能量。请大师指引指引。(主要就是学习的技术线路)

我还想了解下数据分析和数据分析之后的结果怎么看待及正确的运用起来(数据挖掘可以不讲了)。感谢回复!

你好。
大数据的含义其实不是偏指数据量大,更多指的是数据维度的丰富。因为数据的价值不是因为多,而是因为能挖掘出信息来消除不确定性,降低试错成本。
数据分析很多是带有试探性的,在日常的工作中很多情况下是做指标涨跌的关联分析,这些能做明白已经能够给公司解决很多问题了。
其它方面的应用其实不一定在每个公司里都有机会去做,比如推荐系统(典型的机器学习应用场景),如果你的数据维度不足够支撑,或者业务形态不是面向大众的,那很可能无法成行。
如果你现在做的工作和你的长期职业规划不一样,不妨再做一下考虑和选择。如果想把手头的东西做好做精,可以考虑去改进数据收集的成本,存储的成本,报表的准确性,关联分析方法的合理性等这些方面,还是有很多可以做的内容的。
断风格男丶
断风格男丶
非常感谢
1
iamcoder
iamcoder
@azheng333 :请问机器学习需要了解哪些领域知识,阿法狗近乎神矣,喂数据,出结果,工程师都不知道会出什么结果?算法模型是自己建造,还是有专家开源
刀刀老高
刀刀老高
如果要做得比较深,那一定要学好微积分和概率。 入门的话,可以读一下《白话大数据与机器学习》做一个初步了解。 开源的工具能解决很多问题,算法一般不用调整。但是不排除你在优化的时候会觉得不满意,要做改造。
0
jeffsui
jeffsui
@azheng333 :我先来一个,目前机器学习进行到了哪个阶段? 自动化测试是否可以使用机器学习?
刀刀老高
刀刀老高
不,你说的这个环节不是我们参与的。
wsy940822
wsy940822
回复 @刀刀老高 : 西山居的剑三是你们在做么,引擎升级这些,服务器优化这些....
刀刀老高
刀刀老高
不能有效向量化是个很大的问题
jeffsui
jeffsui
回复 @刀刀老高 : 也就是说,前提是设计文档语义化,抽离成关键词,工作量也是巨大的。更何况样本数不够,也无法学习。这样理解是否正确?
刀刀老高
刀刀老高
理论上确实是可行的。 不过设计文档你要进行特征化的过程恐怕是个非常不确定的过程。 设计文档的标准化问题是不是已经做到位了这是问题一,问题二就是有多少样本来供训练? 训练是一个监督学习的过程,要把“文档”和“对应的测试行为”这样的关联告诉学习引擎才可以。
下一页
0
天籁111
天籁111
应届毕业生,目前从事java web方面,未来希望做大数据方面的,学习大数据有哪些基础知识需要学习的,
刀刀老高
刀刀老高
本书侧重点在基本的统计知识和机器学习的思维,普及性讲解和讨论其它辐射知识。 可以到京东看一下图书目录,相信会有一些帮助。
天籁111
天籁111
回复 @刀刀老高 : 书里面有讲这些么?想了解一下
刀刀老高
刀刀老高
大数据也是有偏重的,工程应用,后台开发,可视化,架构,数据分析,还是和兴趣吻合,扬长避短比较好。
0
神经病研究所
神经病研究所
@azheng333 :数学基础对后面的学习很重要么?我是个高数很渣的java程序员
a
azheng333
数学基础对后面还是比较重要的,很多书籍里讲解算法都有数学公式推导,至少需要能看懂公式是什么意思
0
小树鹿鸣
小树鹿鸣
@azheng333 :在学习前是否要复习下微积分、概率论知识?现在这些数学知识都忘记了。
a
azheng333
边看边复习就行,看到记不清楚的数学知识再去查,不用刻意先复习一遍
0
runningx
runningx
@azheng333 :公司数据分析人员如何转入大数据?是否有相关学习路线图
a
azheng333
学习一门入门容易语言 R 或者 pyhton 然后使用 它们处理数据 分析数据,我觉得这种对你切入比较容易。
返回顶部
顶部