高手问答第 203 期 — 百度专家教你运用 Python 成为顶级数据工程师

发布于 2018/06/26 19:13
阅读 4K+
收藏 15

OSCHINA 本期高手问答(2018 年 6 月 27 日 — 7 月 3 日)我们请来了@Edward_Y 黄文青为大家解答关于 Python 数据分析方面的问题。

黄文青,目前就职于百度公司。参与过公司内部海量数据处理的一些项目,具有一定的相关经验。热爱探讨与分享技术,也热衷钻研深度学习、区块链等前沿技术在实际工程中的应用。

数据分析是近年来的热点。几乎所有的互联网公司在产品上都告别了“拍脑袋”做决定的方式,而选择“用数据说话”。因此,也有越来越多的人投入到相关领域当中。Python 作为数据分析的重要语言,受到了广泛关注。然而,对于想要成为数据工程师的人来说,仅完成编程语言的学习是远远不够的。想成为一名优秀的数据分析工程师,还需要有全方位、透彻理解问题本质的能力,善于把实际的工作任务拆解成准确的数据问题,并运用相关的知识来解决。

本期高手问答内容:

1.模型的应用与效果的评估
2.实时以及准时数据处理架构
3.海量数据的存储与计算

或者其它关于 Python 数据分析相关问题,也欢迎大家积极提问!

为了鼓励踊跃提问,@博文视点 会在问答结束后从提问者中抽取 5 名幸运会员赠予《Python绝技:运用Python成为顶级数据工程师》一书。

购买链接:京东

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就 Python 数据分析问题向@Edward_Y 黄文青提问,请直接回帖提问。

加载中
0
博文视点
博文视点
该评论暂时无法显示,详情咨询 QQ 群:点此入群
1
拉裤兜兜子
拉裤兜兜子

@Edward_Y 老师您好,想利用业余时间学习下数据分析,该从怎样的体系学习呢?还有是否需要数学能力的提高,运用数学模型分析之类的,谢谢

E
Edward_Y
①这本书的目录中罗列了一些我自己的知识体系,可供参考。②现在各种模型的实现已经简化到几个api接口就可以实现,但是要想恰当合理的应用,还是应该理解背后的建模原理。
0
5292401
5292401

@Edward_Y请问大神这本书是数据分析方面从入门到高手推荐用书吗?

E
Edward_Y
想从入门到高手,我觉得还是有些帮助的。
0
吾同树
吾同树

@Edward_Y想转行从事数据分析工作,想问下自学的学习路径体系

E
Edward_Y
看目录,供参考。
0
bwboy
bwboy

@Edward_Y 不做开发,一直比较好奇python做的数据分析,形成算法或者模型后,放入流或大数据引擎中是否也用python实现,效率会不会不好?还是用其他语言重写呢?

E
Edward_Y
多个维度来评价吧。举几个栗子,python的很多开源建模库也是用c++或者c实现的;很多模型耗时的根本在于模型本身或者数据集过大,编程语音本身的影响微乎其微;类似Hadoop streaming的方式可以方便的集成python等等一些列原因吧。
0
c
chengk1024

@Edward_Y请问大神如何实现海量数据的存储与计算,能不能简单概括说说用到哪些数据库,Python库,算法?

E
Edward_Y
你可以研究一下,数据仓库,sql数据库,nosql数据库。 举几个栗子,如果实时性要求不高,数据量巨大,需要多维分析的数据当然选择hive这种数据仓库;如果需要业务逻辑处理,sql语义,实时性高,当然选择mysql或者其他sql类型数据库。如果查询维度单一,数据量大,实时性高可以考虑key-value,或者簇列数据库,例如hase,mongodb等。总之,没有既支持sql,又快,量级又大的东东
0
你为什么不吃药
你为什么不吃药

@Edward_Y 做大数据的想要从海量数据中分析有用的数据,展示出来,应该从哪些方面进行分析,公司也是刚开始做大数据,怎么分析用户行为,来分析出对产品有用的价值。

E
Edward_Y
你这个问题强业务相关,我的建议是不同的领域有不同的分析指标,这块在书中有提到,但没有全面的说明。举几个栗子,在门户网站运营方面,我们一般会分析UV、PV、二跳率、留存率等。 在一些教育机构,我们会分析试听率,转化率,续费率等。
0
屮殖
屮殖

@Edward_Y 一直想参与数据分析,前段时间搞了下 R 语言,现在举棋不定。但是看来 Py 是大势所趋。请问下,在入门与“高手”的进阶过程中,需要注意或者避免的都有哪些呢?能否分享点心得或者经验?
毕竟,幼儿学步,慢一点不怕,就怕坑大啊!一个熟手秒秒钟搞定的简单问题,可能会让新手坑几天,坑到死。。。

屮殖
屮殖
回复 @Edward_Y : 非常感谢大牛插旗排雷!
E
Edward_Y
第一直觉应该有这几点吧: ①要理解模型的原理,才能应用到合适的场景,建模绝不仅只是调参。②数据的质量和特征值的提取的好坏非常重要。③模型本身有很多开源库,不要在造轮子。
0
XyHJw
XyHJw

@Edward_Y 你好,我有三个问题请教:1、通常在网站上看到招聘主要有数据分析和数据挖掘,请问两者有什么区别?

2、数据分析主要学习那些内容,有没有好的学习方向指导一下?

3、数据建模和人工智能的建模是否同一个意思?两者有何区别?

XyHJw
XyHJw
回复 @Edward_Y : 你好,我还想问多一个问题,数据分析是不是需要一定的数学基础?从网上的数据分析的博文来看,有些是讲述算法的原理,有些是实际的应用。因为实际应用已经封装好算法,大多数只需调用函数即可实现。这种情况应该如何学习?
E
Edward_Y
①举个栗子,招聘高一数学老师,和高二数学老师的区别。 ②本书的目录可以提供一些参考。 ③数据建模是实现人工智能过程中的一种方法吧,大致是这样,我不清楚该怎么准确无误的描述,
0
赤脚小子
赤脚小子

@Edward_Y  您好,数据工程师在小公司并没有专门职位,而且数据分析的维度和逻辑非常关键,不然很容易一顿操作猛如虎,最后得出的都是错误的结论,这部分指导性内容在您的书中有体现么?

E
Edward_Y
数据分析确实存在这个问题,而且处处存在。本书的第一章数据分析的流程中有对这部分一些探讨。举个栗子,比如数据分析的流程第一步就是明确分析的目标,比如如何确定数据结果的准确性等。
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部