大规模并行 SQL 分析处理引擎 Apache HAWQ

大规模并行 SQL 分析处理引擎 Apache HAWQ

Apache
Java
跨平台
2015-02-18
小编辑

HAWQ 是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受SQL,返回结果集。

Apache HAWQ 具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。主要如下:

  1. 对标准的完善支持:ANSI SQL标准,OLAP扩展,标准JDBC/ODBC支持,比其他Hadoop SQL引擎都要完善。

  2. 具有MPP(大规模并行处理系统)的性能,比其他Hadoop里面的SQL引擎快数倍。

  3. 具有非常成熟的并行优化器。优化器是并行SQL引擎的重要组成部分,对性能影响很多,尤其是对复杂查询。

  4. 支持ACID事务特性:这是很多现有基于Hadoop的SQL引擎做不到的,对保证数据一致性很重要。

  5. 动态数据流引擎:基于UDP的高速互联网络。

  6. 弹性执行引擎:可以根据查询大小来决定执行查询使用的节点及Segment个数。

  7. 支持多种分区方法及多级分区:比如List分区和Range分区。分区表对性能有很大帮助,比如你只想访问最近一个月的数据,查询只需要扫描最近一个月数据所在分区。

  8. 支持多种压缩方法:snappy,gzip,quicklz,RLE等。

  9. 多种UDF(用户自定义函数)语言支持:java, python, c/c++, perl, R等。

  10. 动态扩容:动态按需扩容,按照存储大小或者计算需求,秒级添加节点。

  11. 多级资源或负载管理:和外部资源管理器YARN集成;可以管理CPU,Memory资源等;支持多级资源队列;方便的DDL管理接口。

  12. 支持访问任何HDFS及其他系统的数据:各种HDFS格式(文本,SequenceFile,Avro,Parquet等等)以及其他外部系统(HBase等),并且用户自己可以开发插件来访问新的数据源。

  13. 原生的机器学习数据挖掘库MADLib支持:易于使用及高性能。

  14. 与Hadoop系统无缝集成:存储、资源、安装部署(Ambari)、数据格式、访问等。

  15. 完善的安全及权限管理:kerberos;数据库,表等各个级别的授权管理。

  16. 支持多种第三方工具:比如Tableau,SAS,较新的Apache Zeppelin等。

  17. 支持对HDFS和YARN的快速访问库:libhdfs3和libyarn(其他项目也可以使用)。

  18. 支持在本地、虚拟化环境或者在云端部署。

HAWQ 是原生 Hadoop SQL 引擎中“原生”的意思,“原生”主要体现在如下几个方面:

  1. 数据都存储在HDFS上,不需要使用connector模式。

  2. 高可扩展性:和其他Hadoop组件一样,高可扩展。并且具有高性能。

  3. 原生的代码存取:和其他Hadoop项目一样。HAWQ是Apache项目。用户可以自由的下载,使用和做贡献。区别与其他的伪开源软件。

  4. 透明性:用Apache的方式开发软件。所有功能的开发及讨论都是公开的。用户可以自由参与。

  5. 原生的管理:可以通过Ambari部署、资源可以从YARN分配,与其它Hadoop组件可以运行在同一个集群。

下图是一个典型的HAWQ集群的主要组件。其中有几个Master节点:包括HAWQ master节点,HDFS master节点NameNode,YARN master节点ResourceManager。现在HAWQ元数据服务在HAWQ master节点里面,将来的版本会成为单独的服务。其他节点为Slave节点。每个Slave节点上部署有HDFS DataNode,YARN NodeManager以及一个HAWQ Segment。HAWQ Segment在执行查询的时候会启动多个QE (Query Executor, 查询执行器)。查询执行器运行在资源容器里面。

软件内部架构:

可以看到在HAWQ master节点内部有如下几个重要组件:查询解析器(Parser/Analyzer),优化器,资源管理器,资源代理,HDFS元数据缓存,容错服务,查询派遣器,元数据服务。在Slave节点上安装有一个物理Segment,在查询执行时,针对一个查询,弹性执行引擎会启动多个虚拟Segment同时执行查询,节点间数据交换通过Interconnect(高速互联网络)进行。如果一个查询启动了1000个虚拟Segment,意思是这个查询被均匀的分成了1000份任务,这些任务会并行执行。所以说虚拟Segment数其实表明了查询的并行度。查询的并行度是由弹性执行引擎根据查询大小以及当前资源使用情况动态确定的。下面我逐个来解释这些组件的作用以及它们之间的关系:

  1. 查询解析器:负责解析查询,并检查语法及语义。最终生成查询树传递给优化器。

  2. 优化器:负责接受查询树,生成查询计划。针对一个查询,可能有数亿个可能的等价的查询计划,但执行性能差别很大。优化器的作用是找出优化的查询计划。

  3. 资源管理器:资源管理器通过资源代理向全局资源管理器(比如YARN)动态申请资源。并缓存资源。在不需要的时候返回资源。我们缓存资源的主要原因是减少HAWQ与全局资源管理器之间的交互代价。HAWQ支持毫秒级查询。如果每一个小的查询都去向资源管理器申请资源,这样的话,性能会受到影响。资源管理器同时需要保证查询不使用超过分配给该查询的资源,否则查询之间会相互影响,可能导致系统整体不可用。

  4. HDFS元数据缓存:用于HAWQ确定哪些Segment扫描表的哪些部分。HAWQ是把计算派遣到数据所在的地方。所以我们需要匹配计算和数据的局部性。这些需要HDFS块的位置信息。位置信息存储在HDFS NameNode上。每个查询都访问HDFS NameNode会造成NameNode的瓶颈。所以我们在HAWQ Master节点上建立了HDFS元数据缓存。

  5. 容错服务:负责检测哪些节点可用,哪些节点不可用。不可用的机器会被排除出资源池。

  6. 查询派遣器:优化器优化完查询以后,查询派遣器派遣计划到各个节点上执行,并协调查询执行的整个过程。查询派遣器是整个并行系统的粘合剂。

  7. 元数据服务:负责存储HAWQ的各种元数据,包括数据库和表信息,以及访问权限信息等。另外,元数据服务也是实现分布式事务的关键。

  8. 高速互联网络:负责在节点之间传输数据。软件实现,基于UDP。

查询的主要流程:

用户通过JDBC/ODBC提交查询之后,查询解析器得到查询树,然后优化器根据查询树生成查询计划,派遣器和资源管理器打交道得到资源,分解查询计划,然后派遣计划到Segment的执行器上面执行。最终结果会传回给用户。

并行查询计划示例:

这个查询包含一个连接,一个表达式和一个聚集。图中有两个查询计划。简单来看,并行查询计划和串行查询计划最不同的是多了一些Motion操作符。Motion负责在节点之间交换数据。底层是通过高速互联网络实现的。我们可以看到这里有三种Motion:

  1. Redistribution Motion: 负责按照hash键值重新分布数据

  2. Broadcast Motion: 负责广播数据

  3. Gather Motion: 负责搜集数据到一起。

左边的查询计划表示了如果表lineitem和orders都使用了连接键进行分布的情况。在这个例子中,lineitem按照l_orderkey进行hash分布,orders表按照o_orderkey进行分布。这样的话两个表做连接的时候是不需要进行重新分布的。右边的查询计划表示了一个需要重新分布数据的例子。该查询计划和左边的查询计划相比多了一个Motion节点。

更详细的介绍请看 http://www.36dsj.com/archives/36776

加载中

评论(1)

Ryan-瑞恩
Ryan-瑞恩
mark #HAWQ#

Apache HAWQ 2.4.0.0 发布,SQL 分析引擎

Apache HAWQ 2.4.0.0-incubating 已发布。HAWQ 是一个 Hadoop 原生大规模并行 SQL 分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受 SQL,返回结果集。 主要更新内容: Update P...

2018/10/01 07:39

国人主导研发的 HAWQ® 成 Apache® 顶级项目

北京时间8月22日,在美国马萨诸塞州的韦克菲尔德,全球著名软件基金会 Apache® 正式宣布: Apache® HAWQ® 毕业为顶级项目(Top-LevelProject)。 HAWQ 是一个 Hadoop 原生大规模并行 SQL ...

2018/08/24 08:11

Apache HAWQ 2.3.0.0-incubating 发布,SQL 分析引擎

Apache HAWQ 2.3.0.0-incubating 已于 7 月 12 日发布,目前该项目仍处于孵化阶段。HAWQ 是一个 Hadoop 原生大规模并行 SQL 分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受 SQ...

2018/03/23 07:43

Apache HAWQ 2.2.0.0-incubating 发布,SQL 分析引擎

Apache HAWQ 2.2.0.0-incubating 已于 7 月 12 日发布,目前该项目仍处于孵化阶段。HAWQ 是一个 Hadoop 原生大规模并行 SQL 分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受 SQ...

2017/08/09 16:19

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无问答

PostgreSQL GreenPlum HAWQ

这个日程安排同时也是我们公司核心团队的技术进阶史。公司创始团队成员有幸以核心开发者的角色参与,从单机版的关系型数据库(PostgreSQL),大规模并行处理(MPP)数据库(Greenplum Datab...

02/12 11:45
37
0
hawq 遇到难题了

今天把hawq安装好了,但是为什么一开始进入数据库的时候,他尽然没有postgres数据库 我只能重模板template0 进入 并且template1也是没有的 有人能解答吗 我在网上看到别人都有 而且还有 dfs_...

2015/07/03 18:33
80
0
分布式SQL数据库引擎基于Hadoop HDFS-王伟珣

分布式SQL数据库引擎基于Hadoop HDFS-王伟珣 MPP SQL for HDFS of Hadoop 基于Hadoop 原生HDFS的大规模并行SQL。GPFX External Tables 接口,使用SQL透明访问Hadoop上各类数据-HDFS,HBase,H...

2015/05/14 13:44
91
0
分布式SQL数据库引擎基于Hadoop HDFS

分布式SQL数据库引擎基于Hadoop HDFS MPP SQL for HDFS of Hadoop 基于Hadoop 原生HDFS的大规模并行SQL。GPFX External Tables 接口,使用SQL透明访问Hadoop上各类数据-HDFS,HBase,Hive,Parq...

2015/05/28 09:52
71
0
六大主流开源SQL引擎

导读 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big S...

01/10 22:13
36
0
六大主流开源SQL引擎

本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,I...

01/10 18:53
3
0
六大主流开源SQL引擎

导读 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big S...

01/09 21:38
13
0
你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)

在上一章节中,我们讲到实时数仓的建设,互联网大数据技术发展到今天,各个领域基本已经成熟,有各式各样的解决方案可以供我们选择。 在实时数仓建设中,解决方案成熟,消息队列Kafka、Redis...

09/15 10:41
28
0
Spark原理 | SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。 查询优化器是一个SQL引擎的核心,开源常用的有Apache Calc...

2018/11/28 14:08
15
0
SQL-on-Hadoop实现方案对比

Hive 建立在Hadoop分布式文件系统(HDFS)和MapReduce之上。 提供HiveQL语言,允许用户进行类似SQL的查询。 是老牌的Hadoop数据仓库产品,在MapReduce计算框架上封装一个SQL语义层简化MR的开...

2018/04/23 10:08
89
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部