Apache Hive 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Apache Hive 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Apache Hive 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 企业应用BI商业智能
开源组织 Apache
地区 不详
投 递 者 不详
适用人群 未知
收录时间 2008-10-27

软件简介

Apache Hive(TM)数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。建立在Apache Hadoop(TM)之上,它提供:

  • 通过SQL轻松访问数据的工具,从而实现数据仓库任务,例如提取/转换/加载(ETL),报告和数据分析

  • 一种将结构强加于各种数据格式的机制

  • 访问直接存储在Apache HDFS(TM)或其他数据存储系统(例如Apache HBase(TM))中的文件

  • 使用Apache Hadoop MapReduce,Apache Tez或Apache Spark框架执行查询。

Hive提供了标准的SQL功能,包括2003年和2011年以后的许多分析功能。其中包括OLAP函数,子查询,公用表表达式等。Hive的SQL也可以通过用户定义的函数(UDF),用户定义的集合(UDAF)和用户定义的表函数(UDTF)扩展为用户代码。

Hive用户在执行SQL查询时可以选择3种运行时。用户可以选择Apache Hadoop MapReduce,Apache Tez或Apache Spark框架作为执行后端。MapReduce是一个成熟的框架,已得到大规模验证。但是,MapReduce是纯粹的批处理框架,使用它的查询可能会遇到更高的延迟(数十秒),即使是在较小的数据集上也是如此。Apache Tez专为交互式查询而设计,与MapReduce相比,已大大减少了开销。Apache Spark是一个集群计算框架,建立在MapReduce之外,但在HDFS之上,具有可称为项目的可组合且可转换的分布式集合的概念,称为弹性分布式数据集(RDD),它无需MapReduce引入的传统中间阶段即可进行处理和分析。

用户可以随时在这些框架之间来回切换。在每种情况下,Hive都最适合处理的数据量足以需要分布式系统的用例。

Hive不适用于在线交易处理。最好用于传统的数据仓库任务。Hive旨在最大程度地提高可扩展性(通过向Hadoop集群动态添加更多计算机来进行横向扩展),性能,可扩展性,容错以及输入格式的松散耦合。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(4)
发表于软件架构专区
2018/11/03 07:29

Apache Hive 3.1.1 发布,数据仓库平台

Apache Hive 3.1.1 已发布,更新如下: Bug [HIVE-18767] - Some alterPartitions invocations throw 'NumberFormatException: null' [HIVE-18778] - Needs to capture input/output entities in explain New Feature [HIVE-20420] - Provide a fallback authorizer when no other authorizer is in use 发行说明 Hive 是一个基于 Hadoop 的数据仓库平台。通过 Hive,我们可以方便地进行 ETL 的工作。Hive 定义了一个类似于 SQ...

1
7
发表了资讯
2017/10/26 07:56

Apache Hive 2.3.1 发布,数据仓库平台

Apache Hive 2.3.1 已发布,更新如下: [HIVE-17514]- 使用 SHA-256 作为 cookie signer 来提高安全性 [HIVE-17562] - ACID 1.0 + ETL 策略应将空的压缩文件视为未覆盖之地 [HIVE-17664] - 重构并添加新的测试 [HIVE-17665] - 更新 netty-all 到最新的 4.0.x.Final [HIVE-17705] - HIVE-17562 正在返回不正确的结果 [HIVE-17048] - 通过 HiveSemanticAnalyzerHookContext 将 HiveOperation 信息传递给 HiveSemanticAnalyzer [HI...

0
7
发表了资讯
2017/07/20 07:31

Apache Hive 2.3.0 发布,数据仓库平台

Apache Hive 2.3.0 已发布,本次更新带来了新特性、改进,以及 bug 的修复等。详细内容点此参阅。 Hive 是一个基于 Hadoop 的数据仓库平台。通过 Hive,我们可以方便地进行 ETL 的工作。Hive 定义了一个类似于 SQL 的查询语言:HQL,能够将用户编写的 SQL 转化为相应的 Mapreduce 程序基于 Hadoop 执行。 Hive 是 Facebook 2008 年 8 月开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些 Pig 目前还不支持的机制...

4
16
发表了资讯
2016/12/09 07:52

Apache Hive 2.1.1 发布,数据仓库平台

数据仓库平台 Apache Hive 2.1.1 发布了。本次部分更新如下: Sub-task [HIVE-13409] - Fix JDK8 test failures related to COLUMN_STATS_ACCURATE [HIVE-13549] - Remove jdk version specific out files from Hive2 [HIVE-13587] - Set Hive pom to use Hadoop 2.6.1 [HIVE-13593] - HiveServer2: Performance instrumentation for HIVE-12049 (serializing thrift ResultSets in tasks) [HIVE-13723] - Executing join quer...

1
9
发表了资讯
2016/11/01 00:00

Apache Hive 走向内存计算,性能提升26倍

Apache Hive 2.1已于几个月前发布,它引入了内存计算,这使得Hive计算性能得到极大提升,这将会影响SQL On Hadoop目前的竞争局面。据测试,其性能提高约26倍。 Apache Hive 2.1新引入了6大性能,包括: (1)LLAP。Apache Hive 2.0引入了LLAP(Live Long And Process),而2.1则对其进行了极大的优化,相比于Apache Hive 1,其性能提升约25倍; (2)更鲁邦的SQL ACID支持; (3)2X ETL性能提升。引入更智能的CBO(Cost Based ...

17
61
发表了资讯
2016/06/22 00:00

Apache Hive 2.1.0 发布,数据仓库平台

Apache Hive 2.1.0 发布了,完整改进记录如下: Sub-task [HIVE-9774] - Print yarn application id to console [Spark Branch] [HIVE-10280] - LLAP: Handle errors while sending source state updates to the daemons [HIVE-11107] - Support for Performance regression test suite with TPCDS [HIVE-11417] - Create shims for the row by row read path that is backed by VectorizedRowBatch [HIVE-11526] - LLAP: imple...

2
7
发表了资讯
2016/05/27 00:00

Apache Hive 2.0.1 发布,数据仓库平台

Apache Hive 2.0.1 发布,完整改进记录如下: Release Notes - Hive - Version 2.0.1 ** Sub-task * [HIVE-13362] - Commit binary file required for HIVE-13361 ** Bug * [HIVE-9499] - hive.limit.query.max.table.partition makes queries fail on non-partitioned tables * [HIVE-9862] - Vectorized execution corrupts timestamp values * [HIVE-10729] - Query failed when select complex columns from joinned table ...

2
14
发表了资讯
2016/02/17 00:00

Apache Hive 2.0.0 发布,数据仓库平台

Apache Hive 2.0.0 发布,完整改进记录如下: Release Notes - Hive - Version 2.0.0 Sub-task [HIVE-8858] - Visualize generated Spark plan [Spark Branch] [HIVE-9139] - Clean up GenSparkProcContext.clonedReduceSinks and related code [Spark Branch] [HIVE-9152] - Dynamic Partition Pruning [Spark Branch] [HIVE-9605] - Remove parquet nested objects from wrapper writable objects [HIVE-10166] - Merge Spark...

6
13
发表了资讯
2015/06/29 00:00

Apache Hive 1.2.1 发布,数据库仓库平台

Apache Hive 1.2.1 发布,此版本主要改进内容如下: 改进 [HIVE-8769] - Physical optimizer : Incorrect CE results in a shuffle join instead of a Map join (PK/FK pattern not detected) [HIVE-10812] - Scaling PK/FK's selectivity for stats annotation [HIVE-10900] - Fix the indeterministic stats for some hive queries 新特性 [HIVE-10636] - CASE comparison operator rotation optimization [HIVE-10716] - Fol...

5
14
发表了资讯
2015/05/23 00:00

Apache Hive 1.0.1/1.1.1 发布,数据仓库平台

Apache Hive 1.0.1/1.1.1 发布,两个版本都修复了一个有关 LDAP 身份验证提供者实施漏洞的问题,并且两个版本都改善了 Hive 的连接服务。 两个版本具体更新信息如下: Apache Hive 1.0.1 发行页面。 Apache Hive 1.1.1 发行页面。 下载页面如下: https://hive.apache.org/downloads.html Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写...

1
15
发表了资讯
2015/05/19 00:00

Apache Hive 1.2.0 发布,数据仓库平台

Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。 Apache Hive 1.2.0 发布,此版本...

3
20
发表了资讯
2015/03/10 00:00

Apache Hive 1.1.0 发布,数据仓库平台

Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。 Apache Hive 1.1.0 发布,Apach...

9
18
发表了资讯
2015/02/08 00:00

Hive 1.0 正式版发布,数据仓库平台

Apache Hive 1.0.0 正式发布了。该版本原本是要命名为 Hive 0.14.1,但是团队感觉到了该用 1.x.y 的方式命名的时候了。不过该版本改变的内容并不多,值得关注的有两个: 为 HiveMetaStoreClient 定义 API 移除 HiveServer 1,全面使用 HiveServer 2 Hive 1.0 版本完整的改进记录包括: Bug [HIVE-5631] - Index creation on a skew table fails [HIVE-5664] - Drop cascade database fails when the db has any tables with ind...

9
19
发表了资讯
2014/06/08 00:00

Apache Hive 0.13.1 发布,数据仓库平台

Apache Hive 0.13.1 发布,Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 该版本主要是 bug 修复,包括: [HIVE-4576] - templeton.hive.properties does not allow values with commas [HIVE-6783] - Incompatible schema for maps between parquet-hive and parquet-pig [HIVE-6826] ...

0
9
发表了资讯
2013/10/16 00:00

Apache Hive 0.12.0 发布,数据仓库平台

Apache Hive 0.12.0 发布了,Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 该版本主要新特性包括: [HIVE-305] - Port Hadoop streaming's counters/status reporters to Hive Transforms [HIVE-1402] - Add parallel ORDER BY to Hive [HIVE-2206] - add a new optimizer for query ...

1
23
发表了资讯
2013/05/17 00:00

Apache Hive 0.11.0 发布,数据仓库平台

Apache Hive 0.11.0 发布了,Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。 Re...

5
23
发表了资讯
2012/05/01 00:00

Apache Hive 0.9.0 发布,数据仓库平台

Apache Hive 0.9.0 发布,Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 该版本包含大量新特性、改进和 bug 修复,详情请看改进记录。

1
3
发表了资讯
2012/02/06 00:00

Apache Hive 0.8.1 发布,数据仓库平台

Hive 0.8.1发布,该版本修复了一些bug,详细请见:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12310843&version=12319268 Bug [HIVE-2616] - Passing user identity from metastore client to server in non-secure mode [HIVE-2629] - Make a single Hive binary work with both 0.20.x and 0.23.0 [HIVE-2631] - Make Hive work with Hadoop 1.0.0 Improvement [HIVE-2589] - Newly created partiti...

0
4
发表了资讯
2011/12/20 00:00

Apache Hive 0.8.0 发布,数据仓库平台

Apache Hive 0.8.0 发布了,发行说明请看这里。 Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

0
6
发表了资讯
2011/06/22 00:00

Apache Hive 0.7.1 发布,数据仓库平台

来自Apache 官网的消息,Apache Hive 团队宣布了Hive 0.7.1 版本发布。 Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive 0.7.1 下载: http://hive.apache.org/releases.html#Download 版本更新日志: ** Bug * [HIVE-2054] - Exception on windows when using the jdbc driver. "I...

0
3
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
4 评论
271 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部