Apache CarbonData 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache CarbonData 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Apache CarbonData 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Apache CarbonData 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Apache CarbonData 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

Apache® CarbonData™是由华为开源贡献的大数据高效存储格式解决方案。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“交互式分析、详单查询、任意维度组合的过滤查询等”多种大数据应用场景,并通过丰富的索引技术、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应,与大数据生态Apache Hadoop、Apache Spark等无缝集成。

特点:

  • 列式存储

  • 丰富的索引支持

  • 全局字典编码

  • 自适应类型转换

  • 标准SQL和API

  • 数据生态集成

  • 开源开放

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (4)

加载中
支持华为
2019/07/11 10:59
回复
举报
支持华为!!!
2018/11/27 11:34
回复
举报
打分: 力荐
Gooooood
2016/12/27 09:20
回复
举报
2016/06/05 16:28
回复
举报
更多评论
发表于AI & 大数据专区
2018/10/25 22:42

Apache CarbonData 1.5.0 发布,华为大数据存储方案

CarbonData 1.5.0 发布了,该版本更贴近于统一分析。我们希望能够从更多的引擎/库中读取CarbonData文件,以支持各种用例。在这方面,我们增加了支持从C++库读取 CarbonData 文件的支持。此外,可以使用Java SDK、Spark 文件格式接口、Spark、Presto 等读取 CarbonData 文件。 此外 CarbonData 添加了多个优化以减少存储大小,以便可以利用较小的IO进行查询。对来自 CarbonData 的流支持进行了一些改进。 在该版本中,包含了超过...

1
15
发表了资讯
2017/05/20 07:44

Apache CarbonData 1.1.0,提高 20-50% 扫描性能

Apache CarbonData 1.1.0 发布了,CarbonData 是一个为了更快的交互查询而生的 Hadoop 原生文件格式,用于大数据的快速分析和多维度查询 hadoop 本地数据存储设计。 该版本亮点包括: 推出名为 V3 的新数据格式,以提高扫描性能(〜20〜50%)。 改变表格支持。 (针对 Spark 2.1) 支持批量排序以提高数据加载性能。 通过升级到最新的 netty 框架并为每次加载启动 dictionary 客户端,改进了单次传递负载。 支持将范围内的 fi...

0
11
发表了资讯
2017/04/21 10:38

Apache® CarbonData™ 成 Apache 软件基金会顶级项目

Apache软件基金会正式宣布CarbonData从Apache孵化器毕业,正式成为Apache顶级项目(TLP),这也是首个由中国公司发起并捐献给Apache基金会的开源项目。 Apache® CarbonData™是由华为开源贡献的大数据高效存储格式解决方案。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“交互式分析、详单查询、任意维度组合的过滤查询等”多种大数据应用场景,并...

14
44
发表了资讯
2017/01/29 09:18

Apache CarbonData 1.0.0 发布(第4个稳定版本)

Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。 Apache CarbonData 1.0.0完成了80+ 特性,100+ bugfixs,亮点特性如下: 1.New load data so...

3
25
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于开源治理专区
2020/05/30 18:45

Apache CarbonData 2.0 线上发布会

点击上方“开源社”关注我们 | 主办方:Apache CarbonData、开源社 | 编辑:陈梅梅 | 设计:叶修缘丶 Apache CarbonData 2.0 线上发布会 2020/06/03 (周三)19:30 - 21:00 Apache CarbonData x 开源社 活动介绍 Overview Apache CarbonData 是一个高性能 EB 级别原生 Hadoop 分析型数据仓库,提供面向对象存储上 EB 级数据的高性能明细查询能力、交互式查询能力,提供数据实时同步和更新能力,提供对主要 ETL 业务的支持和加速,...

0
0
发表于AI & 大数据专区
2019/04/21 14:45

Apache CarbonData 1.5.0编译及安装

一、编译环境描述 OpenStack创建五个虚拟机,其中1个主节点(hostname为bigdatamaster),4个从节点(hostname分别为,bigdataslave1、bigdataslave2、bigdataslave3、bigdataslave4) OS:CentOS 7.2_1511 JDK:Oracle JDK 1.8_191 Maven:3.5.2 Hadoop:Apache Hadoop 2.7.2 Hive:0.13.1 Scala:2.11.8 Spark:2.3.2 CarbonData:1.5.0 二、编译过程 1.选择源码 在CarbonData的归档地址(http://archive.apache.org/dist/ca...

0
1
发表了博客
2018/09/08 19:31

在CDH上用外部Spark2.2.1安装和配置 CarbonData

在CDH上用外部Spark2.2.1 (hadoop free版本)standalone 模式安装和配置 CarbonData 一、cdh中外部spark(standalone模式安装) 1、把安装包和配置文件拷贝到其他机器 1.1复制hdfs、hive等配置文件到spark的conf目录 spark-env.sh文件最后新增的配置 export SPARK_HOME=/opt/cloudera/parcels/spark2.2.1/lib/spark2 export SPARK_DAEMON_CLASSPATH=$SPARK_HOME/jars/*:$SPARK_HOME/carbonlib/* # - 这里的dsd为spark的master主...

0
0
发表于开源治理专区
2020/08/13 12:18

Apache顶级项目孵化的故事 - CarbonData成长史

背景介绍 在人工智能、大数据领域,如何统一数据存储以应对企业各种业务需求,是企业转型面对最大的挑战之一。业界IT巨头如 Google、FaceBook 围绕自己业务,都建立了统一数据存储的庞大数据中心,但是本土大厂华为干了这么一件事,为广大企业做了一款大数据统一存储的标准数据格式-CarbonData,并开源了,还孵化为著名开源社区 Apache 的顶级项目。 Apache CarbonData 最近喜讯频传,今年一月份被 Apache 软件基金会主席在月度...

0
0
发表于开发技能专区
2018/06/20 09:33

大数据小视角3:CarbonData,来自华为的中国力量

连续两篇文章都聊了不同的存储格式,这篇我们继续深入来看看在存储格式的演变之上有什么新的"黑科技"。华为公司在2016年开源了类parquet的列存格式:CarbonData,并且贡献给了Apache社区。CarbonData仅仅用了不到一年的时间就成功毕业,成为了Apache社区的顶级项目,CarbonData是首个由华人公司主导的Apache顶级项目,(来源自eBay的Kylin算是首个由华人主导的顶级开源项目)笔者这里还是要向华为的小伙伴们致敬,能够完成这样一...

0
0
2020/10/29 15:23

深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案

摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。 背景 我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的能力。在数据湖中,用户基于一组数据生成报告是非常常见的。随着各种类型的数据汇入数据湖,数据的状态不会一层不变。需要改变各种数据的用例包括随时间变化的时序数据、延迟...

0
0
2020/11/14 22:08

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。  背景 我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的能力。在数据湖中,用户基于一组数据生成报告是非常常见的。随着各种类型的数据汇入数据湖,数据的状态不会一层不变。需要改变各种数据的用例包括随时间变化的时序数据、延...

0
0
2020/11/14 17:16

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据真好玩! 摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。  背景 我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2016/12/20 16:01

Apache CarbonData 性能初体验

背景介绍 Apache CarbonData是由华为开发并贡献至Apache基金会的开源项目,目前处于孵化阶段。据其官网称,CarbonData是基于一系列先进的列式存储、索引、压缩及编码技术而设计的大数据文件存储格式,它的出现能够使得PB级别的大数据量查询速度提升一个档次。 测试说明 本次测试将基于Apache CarbonData 0.2.0 发行版,就数据的加载、压缩和查询效率进行测试评估,并与现有其它存储格式(Parquet)进行相应对比。 测试环境 测试...

2
3
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
4 评论
145 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部