ETL & 流批一体化框架 bboss v7.2.0 发布

来源: 投稿
作者: bboss
2024-05-20 09:28:00

数据采集 ETL & 流批一体化框架 bboss v7.2.0 发布,大幅提升数据加工处理性能 --- 高效、稳定、快速、安全

bboss 是一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成:

  • Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java orm 客户端框架

  • 数据采集同步 ETL ,一个基于 java 语言实现数据采集作业的强大 ETL 工具,提供丰富的输入插件和输出插件,可以基于插件规范轻松扩展新的输入插件和输出插件

  • 流批一体化计算框架,提供灵活的数据指标统计计算流批一体化处理功能的简易框架,可以结合数据采集同步 ETL 工具,实现数据流处理和批处理计算,亦可以独立使用;计算结果可以保存到各种关系数据库、分布式数据仓库 Elasticsearch、Clickhouse 等,特别适用于数据体量和规模不大的企业级数据分析计算场景,具有成本低、见效快、易运维等特点,助力企业降本增效。

  1. 数据采集同步改进:增加并行模式执行数据加工方法datarefactor,大幅提升数据加工处理性能

    数据库输入插件,其他输入插件采用并行模式执行数据加工方法datarefactor。

    数据库输入插件默认采用串行模式执行,可以通过dbInputConfig.setParallelDatarefactor(true)切换为并行执行模式

    并行加工处理模式只有在并行作业任务模式才起作用,参考章节【4.3 串行执行和并行执行

  2. 修复Elasticsearch输出插件日期转换空指针异常问题

  3. 数据采集同步改进:文件输入插件从ftp下载文件,重启作业时,文件过滤器检测状态表中文件异常时将异常抛出去,而不是认为文件不存在,避免不可以预知的异常

  4. RecordGenerator接口方法参数由Context调整为TaskContext,简化接口设计
    public void buildRecord(Context taskContext, CommonRecord record, Writer builder) throws Exception;
     调整为:
    public void buildRecord(TaskContext taskContext, CommonRecord record, Writer builder) throws Exception;
  5. kafka输出插件改进,增加并行批量消息输出能力,提升插件性能
  6. 处理采用sqlserver数据库管理增量同步状态管理表无法创建问题
  7. Elasticsearch客户端和http-proxy支持http请求拦截器功能,配置HttpRequestInterceptor
  8. 增加对Clickhouse jdbc官方驱动的支持(使用http端口),参考文档:https://doc.bbossgroups.com/#/persistent/datasource-cluster
  9. 插件改进:优化http输出插件、文本文件输出插件、dummy输出插件、Elasticsearch输出插件,大幅提升并行批处理任务性能
  10. 流处理指标计算改进:调整etl和流处理混合模式中的流处理功能到批处理任务中执行,提升流处理计算性能
  11. 简化回调处理结果和参数对象泛型结构定义 
  12. 添加增量采集配置正确性校验功能
  13. 增加统一异常信息构建工具
  14. 处理作业过程中指标分析器提示metricspersistent已经停止问题

bboss低版本作业升级到7.2.0教程
https://www.bilibili.com/video/BV1gm421g7Zg/

bboss 详细介绍文档

https://esdoc.bbossgroups.com/#/README

项目源码地址参考:源码下载和构建

Elasticsearch Highlevel Java Restclient 快速上手

https://esdoc.bbossgroups.com/#/quickstart

导入和使用 bboss ETL maven 坐标

bboss 版本最新版本号从以下文档章节【1.1 在工程中导入 bboss maven 坐标获取:

https://esdoc.bbossgroups.com/#/db-es-tool

bboss ETL & 流处理插件使用指南

https://esdoc.bbossgroups.com/#/datatran-plugins

bboss 实战视频

Elasticsearch Bboss Stream ETL 介绍视频

实时采集 Mysql binlog 增删改数据视频教程

bboss 流批一体化计算入门教程

Elasticsearch 导出 Excel 文件,按记录数切割 Excel 文件,解决单个文件导出数量过大问题

通用数据库管理工具 -- 支持关系数据库、Clickhouse、doris 等数据库管理

https://doc.bbossgroups.com/#/tools

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
10 收藏
分享
返回顶部
顶部