高手问答第 247 期 —— 面对海量数据,你能否从容应对?

xplanet 发布于 06/17 08:38
阅读 5K+
收藏 6

Linux基金会免费官方培训及考试申请即将截止,戳这里申请!>>>

数智时代,数据量呈现爆炸式增长,根据 IDC 预测,到 2025 年,全球数据将增长 61%,达到 175ZB。海量数据不仅带来了数据红利,也让企业的数据系统不堪重负,没有一款性能强大的数据库引擎傍身,何以洞悉数据背后的价值?

面对海量数据,您常用的数据库系统或查询引擎有哪些?它们有哪些优势?在日常工作中遇到过哪些难题?希望社区能提供哪些帮助?有没有想亲自上阵来完善某个开源数据引擎?

OSCHINA 本期高手问答(2020 年 6 月 17 日——2020 年 6 月 23 日),邀请到来自百度的资深研发工程师陈明雨老师,他将与大家一起,围绕「海量数据的处理」,尤其是「海量数据的报表和多维分析」这一方面展开讨论,定是知无不言言无不尽,欢迎大家提问。

嘉宾简介

陈明雨百度资深研发工程师,Apache Doris(Incubating) PPMC,主要从事 Doris 项目的核心研发工作。

为了鼓励大家踊跃提问与学习,本期高手问答将抽取 3 名参与者分别赠予 Doris 联名 T 恤 一件

OSCHINA 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家向陈明雨老师 @morningman  & @ApacheDoris 积极提问,直接回帖提问即可。

加载中
0
xplanet
xplanet

高手问答第 247 期 —— 面对海量数据,你能否从容应对?
@yooh_o @whaon @fightingAllTheDay
恭喜以上三位网友分别获得 Doris 联名 T 恤 一件
请私信 @xplanet  告知快递信息(格式:姓名+电话+地址)

1
m
morningman

引用来自“开源中国首席罗纳尔多”的评论

@ApacheDoris 您好,请问大数据现在都是怎么处理的?用mysql存储然后用hadoop分析吗?

您好,这个问题可能稍微有点宽泛。一般业务场景下,都会使用mysql等一些事务数据库来处理业务相关的事务请求,这些请求一般是高频的、少量的。之后这些数据会通过一些数据管道,如kafka等流入到分析系统。当然,也有一些HTAP数据库,如TiDB可以在一定程度上同时支持TP和AP场景。

后端的分析系统不一而足,市面上有非常多的分析系统,如hadoop、spark、kylin、druid、clickhouse等等,当然Doris也是其中之一,具体的还要看业务需求,使用合适的系统来满足需求。

1
m
morningman

引用来自“whaon”的评论

@ApacheDoris

你好,doris的存储是怎么做的怎么扩容

Doris目前是以数据分片为粒度进行数据管理的,数据分片是用户在建表时,通过分区和分桶对表数据进行水平划分形成的。

再扩容时,Doris会根据机器的负载(目前会综合考虑数据分片数量和磁盘使用量),对数据分片进行自动的均衡,将部分分片迁移到新加入的节点中,直到整个集群重新达到平衡状态。整个过程不需要人工干预,并且不影响集群的正常使用。

1
m
morningman

引用来自“开源中国平息”的评论

@ApacheDoris   Doris 都和mysql,几乎一致了,还分布式,还要其他的大数据组件吗?就用 Doris 一个就行了吗? Doris 要和其他的大数据组件结合使用吗??

Doris 不能替代MySQL哦。

MySQL有丰富的事务支持,通常用于OLTP领域,处理前端业务的一些高频的增删改请求。通常会把MySQL的数据同步到Doris,或者其他OLAP型的数据库中,再进行OLAP相关的数据分析需求。因为MySQL会受限于单机的处理能力,在处理大数据量的分析请求时会比较吃力。而Doris具有横向扩展能力,并且是针对分析需求设计的,能够更好地服务于AP需求。

Doris可以和很多其他大数据组件、如Spark、ES等进行结合使用,而且有些场景下是非常必要的。比如Spark能够处理更高数量级的数据分析请求。而不同的大数据组件都有各自不同的适用场景。需要结合业务进行取舍。

当然,Doris也致力于扩展自身的适用场景,减少用户需要维护多套大数据组件的运维压力。

0
大盘
大盘

@ApacheDoris   海量数据要怎么存储 ?数据库方面有推荐吗?TiDB吗 ?

0
青春天
青春天

@ApacheDoris 什么样的数据可以定义为海量的数据?需要达到多少的量级?这些数据是怎么产生的,大概依据什么样的频次产生?其价值可以维持多久?

0
Li_Peng
Li_Peng

@ApacheDoris 您好,请教2个问题:

1、 Doris后续会支持HTAP吗?如果想支持HTAP,Doris结合哪些分布式存储会比较好呢?

2、对于高并发的访问场景,Doris有哪些优化思路?

0
A
ApacheDoris

引用来自“Li_Peng”的评论

@ApacheDoris 您好,请教2个问题:

1、 Doris后续会支持HTAP吗?如果想支持HTAP,Doris结合哪些分布式存储会比较好呢?

2、对于高并发的访问场景,Doris有哪些优化思路?

1. Doris 目前没有支持HTAP的计划,Doris里目前有多版本并发控制的能力,可以支持写入事务在100qps以内的并发。

2. 目前Doris可以支持高并发的读取,实际测试中可以达到10000qps以上,通过扩展FE可以支持10w以上的qps。

Szhipeng
Szhipeng
感谢
m
morningman
回复 @Li_Peng : 可以的,Doris不负责管理ES的数据,所以其实你本身拥有es的全部功能。Doris只是提供一个MPP的SQL查询层。 另外,Doris社区已经着手开始支持实时的增删改功能,这个无关事务,但是也可以满足大部分更新需求场景。
Li_Peng
Li_Peng
感谢回复,想再请教一下,如果采用Doris on ES的模式,能否间接实现HTAP?例如,数据通过ES进行逐条写入或删除,通过Doris进行批量查询。
0
A
ApacheDoris

引用来自“大盘”的评论

@ApacheDoris   海量数据要怎么存储 ?数据库方面有推荐吗?TiDB吗 ?

海量数据存储的选型要看上层的业务,如果是分析型的业务,那么Doris最合适不过了。Doris目前既支持大批量的数据处理,也支持高并发的小查询,所以我们建议只要是分析型的业务都可以使用Doris。

0
A
ApacheDoris

引用来自“青春天”的评论

@ApacheDoris 什么样的数据可以定义为海量的数据?需要达到多少的量级?这些数据是怎么产生的,大概依据什么样的频次产生?其价值可以维持多久?

在一些传统企业中TB级就是海量了,在互联网公司一般认为PB级吧。 数据的产生是多种多样的,比如可以来自于关系型数据库【像企业中的ERP,CRM系统】,可以是IoT数据,也可以是应用产生的日志数据,这些数据产生的频次都不同,价值维持的时间也不一样,比如ERP的数据是长期有用的,但是一些IoT的数据可能就1个月。

返回顶部
顶部