高手问答第 158 期 —— 企业大数据系统构建实战

发布于 2017/06/20 18:44
阅读 4K+
收藏 21

OSCHINA 本期高手问答(2017 年 6 月 21 日 — 6 月 27 日)我们请来了@ethan888  吕兆星为大家解答关于企业大数据方面的问题。

吕兆星,资深大数据技术专家,精通基于大数据的分布式数据挖掘、存储与计算技术,及其生态体系架构;精通垂直搜索技术、机器学习、文本情感倾向性挖掘、网络爬虫、全文索引体系架构。曾任软通动力集团大数据研究院总架构师、HiveCloud 创始人,萝卜网 CTO,国美在线大数据中心高级架构师等。

对于很多企业而言,大数据的重要性不言而喻,但是如何构建、实施和应用大数据系统却是一个复杂工程。

大数据不仅是一个技术名词,更是当下企业资产、核心竞争力、完整产业链和先进生产力的代名词。因此,大数据应该是作为一个整合概念和体系被认知,而非独立的方法论、技术论甚至应用论。处于飞速变革时代的中国,在大数据产业链各个环节的企事业单位受限于自身产业属性、盈利模式、利益趋向、认知、能力等,无法完整地展示出大数据的知识图谱与价值图谱。

因此,本期高手问答邀请了资深的大数据专家,和大家共同分享企业的大数据实践经验,走进大数据的世界。

为了鼓励踊跃提问,@华章 会在问答结束后从提问者中抽取 5 名幸运会员赠予《企业大数据系统构建实战:技术、架构、实施与应用》一书。

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就企业大数据方面问题向@ethan888  吕兆星提问,请直接回帖提问。

加载中
1
华章
华章
该评论暂时无法显示,详情咨询 QQ 群:点此入群
1
熊大信了熊二的话
熊大信了熊二的话

@ethan888   该书是适合初级入门的? 还是进阶的

1
鱼米三香
鱼米三香

@ethan888 大数据的服务组件是融合到企业运行系统之中还是之外?如何让大数据分析与企业决策结合的更紧密?

鱼米三香
鱼米三香
回复 @Andy : 哦,好的谢谢
Andy
Andy
回复 @鱼米三香 : 不是将决策系统放在大数据系统里,而是大数据系统给决策系统提供功能接口和数据支持。这些功能接口和数据可能是面向多个业务方向的。决策系统和这些接口一起形成一个逻辑上完整的业务过程。
鱼米三香
鱼米三香
回复 @Andy : 业务上耦合是指可以将决策系统放在大数据系统里吗?
Andy
Andy
业务上可以耦合,功能、架构、接口保持独立
1
南寻
南寻

@ethan888老师您好,想请问一下,目前企业内生产环境中spark应用多不多呢

1
miller-he
miller-he

@ethan888 对于系统的数据库设计,从一开始就如何为后期的大数据使用做必要的准备,在设计时就应注意什么关键的点?

miller-he
miller-he
@Andy 回复 @Andy : 谢谢,不作为也是作为的一种,理解了
Andy
Andy
多数时候很难想那么远的,容易掉入过度设计的坑,有用没用的数据全留下就行了。大数据是一个不断演进变化的系统,最后趋于成熟,是演化出来的,不是设计出来的。
1
OSC_RnyxQu
OSC_RnyxQu
该评论暂时无法显示,详情咨询 QQ 群:点此入群
0
fkkeee
fkkeee
@ethan888 传统企业在互联网化过程中,有大数据和ai的需求。是否值得自己搭环境全部自己做,还是使用公有云服务接口?
天涯来了1
天涯来了1
回复 @Andy :
Andy
Andy
大数据应用的基础架构是复杂的,对企业的it部门要求较高,多数传统企业把焦点放在业务上可能更好一些,云端的大数据应用能适用多数企业的使用场景。我们都可以喝自来水,但不用都去挖井
0
Andrew1985
Andrew1985

@ethan888 现在市面上为什么ToC的多,ToB的搞不起来,主要还是一个企业内部各种系统,ERP、OA、WMS、TMS,还有其他各种小工具,有什么好的方法进行整合么?或者是通过什么方式将他的各个系统的数据进行集成,进行分析。

Andy
Andy
toB的就是因为历史包袱太重,各孤立系统初始设计的时候,欠缺数据共享应用的规划,而且toB的数据基本都是被业务系统过滤之后的,很多都缺乏大数据应用所需要的全和广的特征。toC反而是一张白纸好发挥,而且用户基数大,容易出成果。对于纯技术角度来看,toC的技术挑战更高一些。toB更侧重业务、管理与模式的整合和局部创新
0
Andrew1985
Andrew1985

@ethan888 因为我是甲方内部的,所以对于内部系统数据分析系统的打造非常关心,特别是内部系统经常会有各种脏数据或者是期初数据,如果每次都需要洗数据那就比较麻烦。

Andy
Andy
要么在源头解决,要么在中间过滤,数据的清洗,转换,规约处理是必不可少的步骤
0
xpbob
xpbob

@ethan888  对于大数据有个问题,类似hbase这种nosql,当数据量特别大的时候,分页查询也特别慢(phoenix),有什么方法优化吗

Andy
Andy
这个必须得具体问题具体分析,你的应用架构,存储架构,问题的瓶颈点是什么,是网络io还是存储io的问题,应用层是否设计合理。
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部