Doris Weekly & FAQ:优化导入 Parquet 文件的性能

来源: 投稿
作者: ApacheDoris
2021-10-18 14:01:55

观众朋友们:

晚上好!

欢迎收看【 Doris 近日要闻】~本次为您带来的是 2021 年 09 月 27 日 ~ 2021 年 10 月 17 日的三周总结。(希望大家度过了一个愉快的国庆假期!

  • Dev 邮件组:dev@doris.apache.org

  • Github Issue:https://github.com/apache/incubator-doris/issues

  • 社区论坛地址:https://github.com/apache/incubator-doris/discussions

1. 统计数据

共 25 位作者提交了 52  Commit 。感谢以下作者的贡献:

Mingyu Chen, shee, Zhengguo Yang, Wei, EmmyMiao87, thinker, jiafeng.zhang, xy720, HappenLee, Gabriel, zhoubintao, wudi, wei zhao, tianhui5, qiye, pengxiangyu, dohongdayi, chovy, caiconghui, Zeno Yang, Xinyi Zou, Xiang Wei, Jennifer Huang, Henry2SS, zbtzbtzbt

最近 周,共修改新增代码行 7569 ,删除代码行 2775 

2. 主要进展

 

2.1 新增功能

  • https://github.com/apache/incubator-doris/pull/6740

    https://github.com/apache/incubator-doris/pull/6796

    Spark-Doris-Connector支持写入数据到Doris,同时支持通过SQL方式写入。

2.2 WIP

  • https://github.com/apache/incubator-doris/pull/6745

    支持Lateral View 语法。

2.3 Bug 修复

  • https://github.com/apache/incubator-doris/pull/6466

    修复某些情况下因查询规划问题导致处理 null 值错误,BE 宕机的问题。

  • https://github.com/apache/incubator-doris/pull/6695

    修复重复修改 colocate_with 属性后,colocation_group 信息不正确的问题。

  • https://github.com/apache/incubator-doris/pull/6708

    修复一些资源组功能的 bug,并增加相关使用文档。

     

  • https://github.com/apache/incubator-doris/pull/6727

    修复 colocation plan 查询计划可能导致聚合结果重复的问题。

     

  • https://github.com/apache/incubator-doris/pull/6756

    禁止多个 Sync Job 同时订阅同一个 Canal instance。

  • https://github.com/apache/incubator-doris/pull/6768

    修复使用 in 查询整型数据时可能结果错误的问题。

  • https://github.com/apache/incubator-doris/pull/6795

    修复部分导入事务元数据未清理导致 FE 内存泄露的问题。

  • https://github.com/apache/incubator-doris/pull/6791

    修复部分 schema change 错误逻辑。

  • https://github.com/apache/incubator-doris/pull/6811

    修复 Left 函数的 bug。

  • https://github.com/apache/incubator-doris/pull/6763

    修复部分情况下,rollup 表的列信息不正确的问题。

  • https://github.com/apache/incubator-doris/pull/6832

    修复部分情况下,sql cache 功能无法感知 view 变更的问题。

  • https://github.com/apache/incubator-doris/pull/6849

    修复部分情况下,当查询内存超限时可能导致 BE 宕机的问题。

2.4 功能改进

  • https://github.com/apache/incubator-doris/pull/6740

    Flink-Doris-Connector 支持 json 格式数据导入。

  • https://github.com/apache/incubator-doris/pull/6554

    动态分区功能支持保留指定时间范围的历史分区。

  • https://github.com/apache/incubator-doris/pull/6769

    优化 FE 进程启动时的端口占用检查逻辑,已更方便的排查端口占用问题。

  • https://github.com/apache/incubator-doris/pull/6782

    优化导入 Parquet 文件的性能。

  • https://github.com/apache/incubator-doris/pull/6625

    优化 HyperLogLog 类型的性能

  • https://github.com/apache/incubator-doris/pull/6754

    函数别名功能支持 cast 语法。

  • https://github.com/apache/incubator-doris/pull/6697

    优化 hex 函数的性能。

  • https://github.com/apache/incubator-doris/pull/6805

    优化 Routine Load 的执行逻辑以减少不必要的子任务执行。

  • https://github.com/apache/incubator-doris/pull/6835

    export 命令支持自定义 label。

  • https://github.com/apache/incubator-doris/pull/6814

    优化 BE 端元数据的内存占用。

2.5 其他

  • https://github.com/apache/incubator-doris/pull/6807

    对所有新建 tablet 默认使用 segment v2 格式。

  • https://github.com/apache/incubator-doris/pull/6766

    升级多个第三方依赖库的版本,并升级 docker 编译镜像至 1.4.0

  • https://github.com/apache/incubator-doris/pull/6832

    修复一些在 arm 环境编译的问题。

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
0 收藏
分享
返回顶部
顶部