Apache Doris(incubating)0.11.0 版本正式发布

Doris小喇叭
 Doris小喇叭
发布于 2019年10月30日
收藏 15

经历了三个多月的研发,Apache Doris(incubating) 0.11.0版本今天正式发布了。这是Doris进入Apache社区孵化以来第三个正式版本。

Doris功能、性能在0.11.0版本都有极大的提升,总计有29名社区同学贡献了382个commitDoris的contributor数目也增长到了57名。

在过去的一个月,外部同学的代码提交量已经达到了主创团队代码提交量的一半。同时也迎来了Doris第一个海外用户Shopee。

 引擎重构 

本次版本最大的改进就是重构了存储引擎。通过重构存储引擎工作,引擎的代码框架变得更加清晰,之前版本很多的Corner Case也在本版本修复。除此外,通过本次的引擎重构,代码的可读性、扩展性都得到了极大的提升。也正是基于此次工作,正在优化存储结构,预计在0.12版本中,能够支持字符串字典压缩,压缩比比现在提升1倍左右。以及在未来的版本中增加倒排索引等工作。

 Bitmap类型支持 

在这个版本中,Doris支持了Bitmap类型,用户如果有精确去重的需求可以通过使用这种类型来实现。用户可以在聚合模型下创建Bitmap类型的value列,然后向这个字段导入数据时,Doris内部会将所有导入的数据求并呈现为一个Bitmap。当用户进行查询的时候能够对这个字段进行union、count等计算,从而能够达到精确去重的功能。

这个功能是由美团@kangkaisen(github.com/kangkaisen)同学贡献,在美团内部,性能已经达到可上线标准。

 文档工作 

文档一直被用户所抱怨,在这个版本中,重构了文档结构,将之前需要写多份的文档变成“书写一次,多次应用”。这样能够保证无论是用户从官网上看到的,以及用户通过help查看到的文档内容都是一致的。同时也在不断的增加文档内容。此外,还增加了我们的英文文档内容,当前大部分英文文档内容是通过翻译软件获得。

用户可以从Doris官网(doris.apache.org/)获得文档的内容。

 导入优化 

parquet

通过社区同学们的努力,Doris现在能够直接导入Parquet格式的数据内容了。

识别分区列

同时也能够从导入文件路径中获得对应的列信息,这样能够更好的兼容Hadoop/Spark生态,让用户能够更加方便的导入数据。

指定过滤条件

用户可以在导入的时候指定过滤条件。通过这个机制,用户能够在数据导入到Doris前,完成对数据的抽取功能,将不需要的数据过滤掉,是的用户在导入数据的时候能够更加灵活地进行数据导入。

时区支持

在这个版本中,京东的同学@HangyuanLiu(github.com/HangyuanLiu)为Doris支持了时区功能。现在用户无论导入、查询都能够设定时区来完成时间数据的相关转化。

除了上述所列功能外,还有很多其他功能、性能方面的修复。用户可以访问这里(github.com/apache/incubator-doris/issues/1891)来获取所有相关改进。

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:Apache Doris(incubating)0.11.0 版本正式发布
加载中

精彩评论

s
shifeng1983
一句介绍是干什么的都没有

最新评论(4

开源中国首席罗纳尔多
开源中国首席罗纳尔多
您好,请问mpp数据库是什么意思?
Doris小喇叭
Doris小喇叭
MPP ( Massively Parallel Processing ),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说,MPP 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果 ( 与 Hadoop 相似 )。
s
shifeng1983
一句介绍是干什么的都没有
Doris小喇叭
Doris小喇叭
Apache Doris (incubating)(原Palo)是一款百度大数据团队自主研发的MPP数据库,其功能和性能已达到或超过国内外同类产品。自2017年在GitHub上开源以来,先后被小米、美团、链家、品友互动、瓜子、搜狐等十多家互联网公司使用。同时,Doris 在公司内部署超过1000台机器,服务超200业务,单业务最大容量500TB;在百度云上,Doris作为大数据分析工具中的数据仓库有着广泛的用户。2018年7月,Doris获得了全球著名开源社区Apache基金会的认可,通过投票成功进入Apache孵化器。之后将通过社区的力量,提供更加稳定、高效、易用的数据仓库服务。

相信信息您可以点击:https://www.oschina.net/p/palo
相关代码:https://github.com/apache/incubator-doris 官网:http://doris.apache.org
返回顶部
顶部