Apache Drill 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Apache Drill 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Apache Drill 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
开源组织 Apache
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2012-08-22

软件简介

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache 软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.


Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,这使得用户能查询固定架构,演化架构,以及各种格式和数据存储中的模式无关(schema-free)数据。该体系架构中关系查询引擎和数据库的构建是有先决条件的,即假设所有数据都有一个简单的静态架构。

Apache Drill 的架构师独一无二的。它是唯一一个支持复杂和无模式数据的柱状执行引擎(columnar execution engine),也是唯一一个能在查询执行期间进行数据驱动查询(和重新编译,也称之为 schema discovery)的执行引擎(execution engine)。这些独一无二的性能使得 Apache Drill 在 JSON 文件模式下能实现记录断点性能(record-breaking performance)。


该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

Day-zero analytics & rapid application development

数据结构:

   Purpose-built for semi-structured/nested data

兼容已有的 SQL 环境和 Apache Hive:

 Compatibility with existing SQL environments and Apache Hive deployments

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。

Drill 查询:

The flow of a Drill query

Drillbit 核心模型:

 Drillbit components

Drill 编译器:


展开阅读全文

评论 (0)

加载中
更多评论
发表于软件架构专区
2019/12/30 07:43

Apache Drill 1.17.0 发布,大型数据集分析系统

Apache Drill 1.17.0 发布了,Drill 是一个大数据 SQL 查询引擎,其在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,使得用户能查询固定架构、演化架构,以及各种格式和数据存储中的模式无关(schema-free)数据。 更新如下: 支持 Hive 复杂类型 支持 ESRI Shapefile(shp)和 Excel 格式插件 支持 Drill Metastore 更新到 HADOOP-3.2 使用文件/表函数进行架构配置 用户代理 UDF 支持规范的 Map<K,V> 改进 Kafk...

1
10
发表于运维专区
2019/01/01 07:33

Apache Drill 1.15.0 发布,大型数据集分析系统

Apache Drill 1.15.0 发布了,Drill 是一个大数据 SQL 查询引擎,其在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,使得用户能查询固定架构、演化架构,以及各种格式和数据存储中的模式无关(schema-free)数据。 更新如下: SQLLine 更新到 1.6 (DRILL-3853) 索引支持 (DRILL-6381) 能够创建自定义 ACL 以保护 znode (DRILL-5671) INFORMATION_SCHEMA FILES 表 (DRILL-6680) 系统功能表 (DRILL-3988) 发布公告...

0
15
发表于DevOps专区
2018/08/29 07:58

Apache Drill 1.14.0 发布,大型数据集分析系统

Apache Drill 1.14.0 已发布,Apache Drill 是一个用于大数据的开源 SQL 查询引擎。Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,这使得用户能查询固定架构,演化架构,以及各种格式和数据存储中的模式无关(schema-free)数据。该体系架构中关系查询引擎和数据库的构建是有先决条件的,即假设所有数据都有一个简单的静态架构。 从该版本起,你可以在 Docker 容器中运行 Drill,可查询各种图像格...

1
8
发表于服务端专区
2018/03/21 07:20

Apache Drill 1.13.0 发布,大型数据集分析系统

Apache Drill 1.13.0 发布了。主要更新如下: - YARN support for Drill - Support HTTP Kerberos auth using SPNEGO - Support SQL syntax highlighting of queries - Drill should support user/distribution specific configuration checks during startup - Upgrade DRILL to Calcite 1.15.0 [DRILL-5966 - Batch Sizing improvements to reduce memory footprint of operators - Limit batch size for flatten operator 完...

0
13
发表了资讯
2016/12/01 07:38

Apache Drill 1.9.0 发布,大型数据集分析系统

Apache Drill 1.9.0 发布了。主要更新如下: 新特性: Asynchronous Parquet reader Parquet filter pushdown Dynamic UDF support HTTPD format plugin 改进: [DRILL-1950] - Implement filter pushdown for Parquet [DRILL-3178] - csv reader should allow newlines inside quotes [DRILL-4309] - Make this option store.hive.optimize_scan_with_native_readers=true default [DRILL-4653] - Malformed JSON should not ...

1
30
发表了资讯
2015/05/20 00:00

Apache Drill 1.0 发布,大型数据集分析系统

Apache Drill 1.0 发布,这是一个里程碑版本。此版本在 SQL-on-Hadoop上提升了安全性能,此外,它还解决了Hadoop上自助服务 SQL 查询的空缺,尤其复杂动态 NoSQL 数据类的查询。它的一大性能优势是能够访问Hadoop数据,和 Qlik 一起使用的话,能够让用户发现更多数据方面的商用价值。 Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,这使得用户能查询固定架构,演化架构,以及各种格式和数据存储中...

5
48
发表了资讯
2014/12/03 00:00

Apache Drill 成为 Apache 基金会顶级项目

Apache 基金会今天宣布 Apache Drill 成为基金会的顶级项目。项目新的首页是:http://drill.apache.org/ 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel. 该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集...

10
43
发表了资讯
2014/08/14 00:00

Apache Drill 0.4.0 发布,大型数据集分析系统

Apache Drill是为大数据集的互动分析而生,是Google的Dremel的开源版本。它的目标是可以高效地对大数据集进行分析,可以运行在1000台以上的服务器,在几秒内处理PB级的数据和万亿条的数据记录,目前Drill还在Apache进行孵化。近日,Apache Drill 0.4.0发布,该版本是一个开发者预览版本。该版本是一个具有大量改进和新特征引入: A new way to work with data and metadata including the first query engine to champion adva...

6
38
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于云计算专区
2015/05/24 15:44

Apache Drill

Why Drill Top 10 Reasons to Use Drill 1. Get started in minutes It takes a couple of minutes to start working with Drill. Untar the Drill software on your Mac or Windows laptop and run a query on a local file. No need to set up any infrastructure or to define schemas. Just point to the data, such as data in a file, directory, HBase table, and drill. $ tar -xvf apache-drill-<version>.tar.gz $ <i...

0
2
发表了博客
2018/10/24 23:15

docker 方式运行drill

drill 1.14 版本已经官方支持使用docker 直接运行可,还是比较方便的,尽管镜像 有点大,但是实际测试使用还是比较方便的,实际上自己做一个也比较简单。 下载镜像 docker pull drill/apache-drill:1.14.0 运行 命令行模式 docker run -i --name drill-1.14.0 -p 8047:8047 -t drill/apache-drill:1.14.0 /bin/bash 简单测试 select * from sys.version web ui open http://localhost:8047 效果 参考资料 http://drill.apache....

0
0
发表了博客
2018/12/12 17:33

【原创】大数据基础之Drill(2)Drill1.14+Hive2.1.1运行

问题 Drill最新版本是1.14,从1.13开始Drill支持hive的版本升级到2.3.2,详见1.13的release notes The Hive client for Drill is updated to version 2.3.2. With the update, Drill supports queries on transactional (ACID) and non-transactional Hive bucketed ORC tables. The updated libraries are backward compatible with earlier versions of the Hive server and metastore. (DRILL-5978) 强行使用Drill1.14连接H...

0
0
发表了博客
2014/12/08 21:09

Apache Drill 成为 Apache 基金会顶级项目

Apache 基金会今天宣布 Apache Drill 成为基金会的顶级项目。项目新的首页是:http://drill.apache.org/ 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel. 该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据...

0
7
发表了博客
2019/06/16 22:23

【原创】大数据基础之Drill(1)简介、安装及使用

https://drill.apache.org/ 一 简介 Drill is an Apache open-source SQL query engine for Big Data exploration. Drill is designed from the ground up to support high-performance analysis on the semi-structured and rapidly evolving data coming from modern Big Data applications, while still providing the familiarity and ecosystem of ANSI SQL, the industry-standard query language. Drill provides plug-...

0
0
发表于AI & 大数据专区
2018/09/14 15:40

Drill-on-YARN之源码解析

## 1. 概要 前面介绍了如何把Drill部署在YARN上,然后通过Drill-on-YARN客户端,你可以启动、停止、调整、清零命令操作Drill。但是在这么命令背后,到底是如何执行的呢,下面会对Drill-on-YARN的源码进行详细的解析,重点解析启动过程,其他命令简单介绍。 **说明:下面涉及到的代码,以drill 1.14.0为准,并且为了减少篇幅,进行了删减。** ## 2. Drill-on-YARN start ### 2.1 drill-on-yarn.sh 通过查看drill-on-yarn.sh脚本,...

0
0
2020/08/07 10:54

Tableau中级: 参数动作下钻 (Drill Down with Parameter Actions)

public: https://public.tableau.com/profile/deepwindlee#!/vizhome/WOW2020Week30-StatetoCityDrillDownwithParameterActions_15967601338790/WOW2020WK31 以前还学过集的动作下钻 :tableau 中级 :set actions 下钻, 可以对比学习下。 本文分享自微信公众号 - deepwind数据分析(gh_14b5ef8a8924)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2012/10/25 10:26

Google Dremel 原理 - 如何能 3 秒分析 1PB

作者: @陈利人 来自 Google 公司 简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce 的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎,获得了很大的成功。最近Apache计划推出Dremel的开源实现Drill,将Dremel的技术又推到了浪尖 上。 Google Dremel设...

33
202
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
117 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部