Apache Doris 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache Doris 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Apache Doris 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Apache Doris 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Apache Doris 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

Apache Doris (incubating)(原Palo)是一款百度大数据团队自主研发的MPP数据库,其功能和性能已达到或超过国内外同类产品。自2017年在GitHub上开源以来,先后被小米、美团、链家、品友互动、瓜子、搜狐等十多家互联网公司使用。同时,Doris 在公司内部署超过1000台机器,服务超200业务,单业务最大容量2PB;在百度云上,Doris作为大数据分析工具中的数据仓库有着广泛的用户。2018年7月,Doris获得了全球著名开源社区Apache基金会的认可,通过投票成功进入Apache孵化器。之后将通过社区的力量,提供更加稳定、高效、易用的数据仓库服务。

百度数据仓库Palo是由Doris(原Palo)核心研发团队在百度云上提供的基于Apache Doris 的数据仓库服务,可以面向企业级用户提供全托管的数仓体验。同时也支持多云及私有化部署。详询官网:https://cloud.baidu.com/product/palo.html

平台架构

Doris 的定位是面向在线报表和分析的数据仓库系统,可以对标于商业的MPP 数据仓库系统,比如Greenplum、Vertica、Teradata 等。Doris架构如下:

系统架构

Doris 主要基于C++ 和Java 开发,集成了Google Mesa 和Apache Impala 的技术。将Mesa 与Impala 进行组合的基础上,Doris 被设计为一个不依赖于其他系统的简单且单一紧密耦合的系统,并实现了MySQL协议,使得用户可以像使用MySQL 一样无门槛的过渡到Doris,包括各种报表应用都可以通过MySQL协议连接Doris,同时获得高并发低延迟点查询性能,而且还能进行高吞吐量的即席分析查询。Doris 不仅提供大批量数据加载,而且还提供近乎实时的小批量,甚至流数据加载。此外Doris还具备高可用性,可靠性,容错性和可扩展性。

特点优势

Doris博采众长,形成了自己独特的优势:1)完全兼容MySQL协议;2)采用列式存储、对数据以高压缩比进行压缩存储、向量化执行等先进技术,因此获得了极高的查询效率;3)支持多种存储模型:同时支持类似于Mesa将列分为Key和Value的存储模型,同时支持Unique Key和Dup Key的存储模型。用户可以根据自己的业务场景,选用不同的存储模型;4)支持两层分区;5)支持多种数据导入方式;6)安全资源隔离扩容缩容;7)备份和恢复;8)支持web监控和管理;

适用场景

Doris适用场景主要包括:

1)高并发的点查询场景;

2)高吞吐的即席查询

3)BI报表分析

4)实时查询

更广泛地,Doris 支持本地文件、实时数据和HDFS文件的导入,通过兼容MySQL协议,用户可以将原来通过各种主流BI工具和可视化平台业务切换到Doris,改为直接连接Doris集群。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (12)

加载中
打分: 力荐
使用过,觉得很棒
02/26 13:59
回复
举报
morningman软件作者
Doris 0.13 版本已于 本月在Apache社区投票通过,欢迎移步: http://doris.incubator.apache.org/master/zh-CN/downloads/downloads.html 体验试用。
2020/10/29 11:10
回复
举报
欢迎关注ApacheDoris官方wx公众号~ 搜索wx号morningman-cmy进开源用户社区群共同探讨~
2020/04/03 14:47
回复
举报

引用来自“格洛米借给你”的评论

搭建palo,只有一篇文档,用了4天,各种bug
俺已经花了3天了,第一天直接编译,死活不出来,第二天用docker编译,还好OK了,第三天到fe卡住了,9030的服务没起来是怎么搞的?
2019/05/22 14:14
回复
举报
morningman软件作者
Doris 目前已经拥有了完善的安装、部署、使用文档,以及方便的开发编译环境。 欢迎移步doris官网 http://doris.incubator.apache.org/master/zh-CN/
2020/10/29 11:03
回复
举报

引用来自“leanderlee”的评论

代码:https://github.com/apache/incubator-doris 官网:http://doris.apache.org

引用来自“tomcccc”的评论

看到doris很兴奋,立马下载编译完,fe部署后的jps,有PaloFe进程,netstat -lntp 查看端口,只有9010,8030没有看到9030端口,是不是有问题?BE不能注册,这个是哪里配置有问题?
Doris能建个QQ群吗,方便使用者交流。
2019/05/22 14:11
回复
举报

引用来自“leanderlee”的评论

代码:https://github.com/apache/incubator-doris 官网:http://doris.apache.org
看到doris很兴奋,立马下载编译完,fe部署后的jps,有PaloFe进程,netstat -lntp 查看端口,只有9010,8030没有看到9030端口,是不是有问题?BE不能注册,这个是哪里配置有问题?
2019/05/22 14:08
回复
举报
打分: 力荐
代码:https://github.com/apache/incubator-doris 官网:http://doris.apache.org
2018/11/12 14:49
回复
举报
谁能告诉我哪里可以下载安装文档?
2018/09/04 16:15
回复
举报
搭建palo,只有一篇文档,用了4天,各种bug
2018/03/14 08:28
回复
举报
百度的东西,可难用。
2017/08/23 00:52
回复
举报
更多评论
发表了资讯
04/13 14:46

Apache Doris Roadmap 2021

随着 Doris 越来越广泛的被在各个公司落地使用,Doris 开发团队也在不断地收集社区用户的需求和问题反馈。 为了更好地帮助用户了解 Doris 的发展方向和开发计划,百度 Doris 团队梳理了 2021 年正在进行和将要开展的工作计划。 1. 向量化执行引擎 Doris 一直以易用性和功能性著称、并且在高并发点查询、多表 Join 等复杂多维分析场景有良好的性能表现。 但是在单纯的算子性能方面依然有非常大的优化空间。今年我们会将查询层所有...

0
5
发表了资讯
2020/05/15 07:31

Apache Doris(Incubating)0.12.0 发布

Apache Doris(Incubating) 0.12.0 已经发布了,这是 Doris 进入 Apache 孵化器后第四个正式版本。 此版本带来的新功能包括: 全新的存储格式SegmentV2 此版本对底层的数据文件格式进行了完全重构。原有的存储格式是类似orcfile的列存格式,存在诸多的设计问题,如按字节流的读取方式效率低下、大量随机读问题、不支持字典压缩、不支持数据块的缓存、结构不清晰难以扩展等。 新的SegmentV2存储格式参考了Parquet的设计思路,引入...

1
3
发表了资讯
2019/10/30 10:51

Apache Doris(incubating)0.11.0 版本正式发布

经历了三个多月的研发,Apache Doris(incubating) 0.11.0版本今天正式发布了。这是Doris进入Apache社区孵化以来第三个正式版本。 Doris功能、性能在0.11.0版本都有极大的提升,总计有29名社区同学贡献了382个commit。Doris的contributor数目也增长到了57名。 在过去的一个月,外部同学的代码提交量已经达到了主创团队代码提交量的一半。同时也迎来了Doris第一个海外用户Shopee。 引擎重构 本次版本最大的改进就是重构了存储引擎...

4
15
发表于行业趋势专区
2018/07/14 07:57

全票通过,百度 Doris 项目进入 Apache 基金会孵化器​​​​​​​

根据最新的 Apache 基金会邮件列表,百度开源项目 Doris 已全票通过投票,正式成为 Apache 基金会的孵化器项目。 投票结果是,在包含 8 个约束性投票(binding votes)和 6 个无约束性投票(non-binding votes)的投票过程中,均获得了一致的同意意见。 按投票页面中的说法,Apache Doris 正是目前百度的 Palo 项目(https://github.com/baidu/palo)。而进入 Apache 基金会后,项目相关的文档和网站内容也将会一并捐赠给基金会。 Pa...

16
26
发表了资讯
2017/08/12 08:04

百度开源 OLAP 引擎 Palo,高可用的 MPP 数据仓库

百度昨日正式开源 Palo ,这是一个百度自研的基于 MPP 的交互式 SQL 数据仓库,主要用于解决报表和多维分析。 Palo 主要集成了 Google Mesa 和 Cloudera Impala 技术。和其他流行的 SQL-on-Hadoop 系统不同的是,Palo 设计为单一紧密耦合系统,不依赖其他系统。 Palo 不仅提供高并发低延迟的查询性能,而且提供了高吞吐量的 ad-hoc 分析查询。它还提供批量数据加载,以及近乎实时的小批量数据加载。 Palo 具有高可用性、可靠性、...

5
48
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2010/10/20 00:52

Palo, Palo

什么是 Palo, Palo 是常驻型(memory resident)多维数据库(MOLAP),主要作为 BI 工具在 Spreadsheet 软件中实现 Controlling 和 Budgeting 的目的。通过 Palo,多个用户可以分析集中存储的 single version of the truth 的数据。

0
1
发表了博客
2019/07/18 18:05

Palo Alto GlobalProtect上的PreAuth RCE

0x00 前言 SSL VPN虽然可以保护企业资产免受互联网被攻击的风险影响,但如果SSL VPN本身容易受到攻击呢?它们暴露在互联网上,可以可靠并安全地连接到内网中。一旦SSL VPN服务器遭到入侵,攻击者就可以渗透到内网,甚至接管所有连接到ssl-vpn服务器的用户!由于其重要性,在过去几个月中,我们开始对安全领先的SSL VPN产品进行安全研究。 我们计划用3篇文章上发布我们的结果。我们把本文作为第一篇,因为我们认为这是一个有趣的...

0
0
发表了博客
2020/10/03 09:27

从Google Mesa到百度PALO(数仓)

最近在研究OLAP相关的技术,正好看到Google 2014年的论文《Mesa: Geo-Replicated, Near RealTime, Scalable Data Warehousing》,以及百度最近2017年开源的基于Mesa+Impala的实现系统PALO,本篇就尝试结合起来看下二者,主要是学习介绍性质的文章。 1. Mesa Mesa是一个Google内部使用的数据仓库系统,从论文的标题可以抓住几个关键词:可实现跨DC复制的、近实时的、可扩展的。这几点算是Mesa的特色所在,同时和Mesa要解决的问题...

0
0
2020/11/18 18:39

百度智能云数据仓库Palo免费试用啦!

构建单个分析数仓需要维护5-6个组件; 明细数据查询和聚合查询只能二者选一; 高并发场景和大吞吐即席查询不能兼得; 每个组件都需要单人独立负责,运维成本居高不下; 单表查询性能稳定性欠佳,复杂查询场景下计算引擎性能差; 个别节点宕机,缺失的数据不会自动补齐,面临丢失的风险; 单个集群计算压力激增时,无法弹性伸缩,扩容压力大; 依靠缓冲层批量导入数据,无法支持数据实时写入; …… 数据仓库平台搭建、数据仓库运...

0
0
2020/11/21 08:00

从Google Mesa到百度PALO再到Apache Doris(数仓)

最近在研究OLAP相关的技术,正好看到Google 2014年的论文《Mesa: Geo-Replicated, Near RealTime, Scalable Data Warehousing》,以及百度最近2017年开源的基于Mesa+Impala的实现系统PALO,本篇就尝试结合起来看下二者,主要是学习介绍性质的文章。 1. Mesa Mesa是一个Google内部使用的数据仓库系统,从论文的标题可以抓住几个关键词:可实现跨DC复制的、近实时的、可扩展的。这几点算是Mesa的特色所在,同时和Mesa要解决的问题...

0
0
发表了博客
2020/08/13 08:22

Palo Alto PAN-OS 10.0 VM 百度网盘下载,全球首个基于机器学习的新一代防火墙

Palo Alto Networks PAN-OS 10.0: World's First ML-Powered NGFW PA-VM-ESX-10.0.0.ova 关键新特性: SSL Decryption Support for TLSv1.3 Inline ML for Web-Based Attacks Secure Kubernetes Environments with the CN-Series NGFW IoT Security 参看:PAN-OS ® New Features Guide 下载连接: 请访问:https://sysin.org/article/Download-PAN-OS-10.0-VM/...

0
0
发表于DevOps专区
2020/02/27 09:37

聚力战“疫”,赋能安全暨2020信息安全网络峰会开启报名!

聚力战“疫”,赋能安全 一场突如其来的新冠“疫情”正在全球肆虐,面对这场没有硝烟的战“疫”,全中国,乃至全世界都在众志成城,抗击疫情。 古人有云:工欲善其事,必先利其器。而在0和1的世界里,面对网络病毒和恶意软件的侵袭,我们更需要未雨绸缪,正所谓知己知彼,方可百战不殆! 固定布局 工具条上设置固定宽高 背景可以设置被包含 可以完美对齐背景图和文字 以及制作自己的模板 2020年3月12日13:30~17:05 安全+将携手 ...

0
0
2020/02/27 09:46

聚力战“疫”,赋能安全暨2020信息安全网络峰会开启报名!

聚力战“疫”,赋能安全 一场突如其来的新冠“疫情”正在全球肆虐,面对这场没有硝烟的战“疫”,全中国,乃至全世界都在众志成城,抗击疫情。 古人有云:工欲善其事,必先利其器。而在0和1的世界里,面对网络病毒和恶意软件的侵袭,我们更需要未雨绸缪,正所谓知己知彼,方可百战不殆! 固定布局 工具条上设置固定宽高 背景可以设置被包含 可以完美对齐背景图和文字 以及制作自己的模板 2020年3月12日13:30~17:05 安全+将携手 ...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2020/06/17 08:38

高手问答第 247 期 —— 面对海量数据,你能否从容应对?

数智时代,数据量呈现爆炸式增长,根据 IDC 预测,到 2025 年,全球数据将增长 61%,达到 175ZB。海量数据不仅带来了数据红利,也让企业的数据系统不堪重负,没有一款性能强大的数据库引擎傍身,何以洞悉数据背后的价值? 面对海量数据,您常用的数据库系统或查询引擎有哪些?它们有哪些优势?在日常工作中遇到过哪些难题?希望社区能提供哪些帮助?有没有想亲自上阵来完善某个开源数据引擎? OSCHINA 本期高手问答(2020 年 6 ...

49
6
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
12 评论
1.9K 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部