elasticsearch-datatran 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
elasticsearch-datatran 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
elasticsearch-datatran 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据处理
开源组织
地区 国产
投 递 者 bboss
适用人群 未知
收录时间 2020-03-23

软件简介

bboss-datatran --- 简化版Flink

bboss-datatran bboss 开源的数据采集&流批一体化工具,提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能。    

bboss-datatran 数据同步作业采用java语言开发,小巧而精致,同时又可以采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据,实现流批一体数据处理功能;可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小;可以将作业独立运行,亦可以将作业嵌入基于java开发的各种应用汇总运行;通过作业执行控制API、任务状态监控metircs api,可以定制化开发一些符合自己要求的同步作业任务监控管理功能,提供作业启动、暂停(pause)、继续(resume)、停止控制功能,轻松定制一款属于自己的ETL管理工具

工具可以灵活定制具备各种功能的数据采集统计作业

1) 只采集和处理数据作业

2) 采集和处理数据、指标统计计算混合作业

3) 采集数据只做指标统计计算作业

指标计算特点

1) 支持时间维度和非时间维度指标计算

2) 时间维度指标计算:支持指定统计时间窗口,单位到分钟级别

3) 一个指标支持多个维度和多个度量字段计算,多个维度字段值构造成指标的唯一指标key,支持有限基数key和无限基数key指标计算

4) 一个作业可以支持多种类型的指标,每种类型指标支持多个指标计算

5)支持准实时指标统计计算和离线指标统计计算

6)可以从不同的数据输入来源获取需要统计的指标数据,亦可以将指标计算结果保存到各种不同的目标数据源

 

增量数据采集,默认基于sqlite数据库管理增量采集状态,可以配置到其他关系数据库管理增量采集状态,提供对多种不同数据来源增量采集机制:

1) 基于数字字段增量采集:各种关系数据库、Elasticsearch、MongoDB、Clickhouse等

2) 基于时间字段增量采集:各种关系数据库、Elasticsearch、MongoDB、Clickhouse、HBase等,基于时间增量还可以设置一个截止时间偏移量,比如采集到当前时间前十秒的增量数据,避免漏数据,支持纳秒级精度数据同步

3) 基于文件内容位置偏移量:文本文件、日志文件基于采集位置偏移量做增量

4) 基于ftp文件增量采集:基于文件级别,下载采集完的文件就不会再采集

5)支持mysql binlog,实现mysql增删改实时增量数据采集,支持master/slave监听、binlog日志文件直接采集两种模式

可以把 bboss-datatran看成是一个简单的、轻量级的数据同步框架,亦可以把他当做一个小组件,只需导入一个maven坐标,参考提供的一系列案例,就可以轻松愉快地开发出一个非常棒的数据采集、加工、入库、分发、上传的、具备增量状态管理功能的数据采集同步作业,同时还可以在idea、eclipse中进行debug调测,通过一些错误回调处理机制,可以非常方便地洞悉同步过程中的各种数据问题、处理错误和异常;依赖jdk环境,无需额外安装其他工具环境,就可以将bboss数据采集同步作业跑起来。

如果您还在:

  • 苦于logstash、flume、filebeat之类的开源工具无法满足复杂的、海量数据自定义加工处理场景;
  • 苦于无法调用企业现有服务和库来处理加工数据;
  • 苦于因项目投入有限、进度紧,急需一款功能强大、上手快、实施简单的数据交换工具
  • 苦于寻求数据采集和流批一体数据处理和指标统计计算于一体的数据处理计算框架

那么bboss-datatran将是一个不错的选择。

文件输入和输出插件:支持大量文件并行采集、增量/全量采集,快速、稳定、高效

采用标准的输入输出异步管道来处理数据

案例大全

https://esdoc.bbossgroups.com/#/bboss-datasyn-demo

功能特点

1.支持多种数据源之间的数据同步

2.支持多种数据导入方式

  • 批量数据导入
  • 批量数据多线程并行导入
  • 定时全量(串行/并行)数据导入
  • 定时增量(串行/并行)数据导入

3.支持的数据库和消息中间件类型

数据库: mysql,maridb,postgress,oracle ,sqlserver,db2,tidb,hive,clickhouse,mongodb、HBase、elasticsearch、达梦等

消息中间件:kafka 1x,kafka 2x

4.Elasticsearch版本兼容性

Elasticsearch 1.x,2.x,5.x,6.x,7.x,8.x+

5.支持海量PB级数据同步导入Elasticsearch

6.支持将ip转换为对应的运营商/省份城市/经纬度坐标位置信息

7.支持设置数据bulk导入任务结果处理回调函数,对每次bulk任务的结果进行成功和失败反馈,然后针对失败的bulk任务通过error和exception方法进行相应处理

8.提供详细的数据同步任务监控指标,可监控作业任务处理总记录数、成功记录数、Ignore记录数、失败记录数,支持自行将任务监控指标数据进行存储或者转发到kafka

9.支持多种定时任务执行引擎

10.支持两种作业运行方式

  • 嵌入到应用中运行,基于quartz和jdk timer调度的作业都可以运行在这种模式下,参考文档:spring boot运行案例
  • 独立发布包运行,基于quartz和xxl-job,jdk timer调度的作业都可以运行在这种模式下,参考文档:作业发布

11.基于java语言开发和发布数据同步作业

12.提供了基于gradle管理的作业开发模板工程,以方便大家快速构建和发布自己的数据同步作业:

https://gitee.com/bboss/bboss-datatran-demo

总之bboss-datatran是一款高度灵活的数据交换工具,基于bboss-datatran可以快速实现开发高效而强大的数据同步作业,以及构建在其上的数据交换产品。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(4) 发布并加入讨论🔥
发表了资讯
01/30 12:48

ETL & 流批一体化框架 bboss v7.1.5 发布

数据采集 ETL & 流批一体化框架 bboss v7.1.5 发布 --- 高效、稳定、快速、安全 7.1.5版本亮点:扩展kafka输出插件,可以根据需求,在记录级别设置数据发送Kafka主题。 bboss 是一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成: Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java 客户端框架 数据采集同步 ETL ,一个基于 java...

0
5
发表了资讯
01/08 11:34

ETL & 流批一体化框架 bboss v7.1.3 发布

数据采集 ETL & 流批一体化框架 bboss v7.1.3 发布 --- 高效、稳定、快速、安全 本次版本最大亮点:从持久层和ETL两个方面优化对Clickhouse的支持,新增Clickhouse客户端负载均衡机制 bboss 是一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成: Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java 客户端框架 数据采集同步 ETL ,...

0
6
发表了资讯
2023/11/06 09:21

数据采集 ETL & 流批一体化框架 bboss v7.1.1 发布

数据采集 ETL & 流批一体化框架 bboss v7.1.1发布 --- 高效、稳定、快速、安全 本次版本最大亮点:新增MongoDB CDC输入插件,可以增量模式采集MongoDB 增、删、改数据,也可每次作业重启从最新位置采集MongoDB 增、删、改数据,同时带来了一系列实用的功能改进。 bboss 是一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成: Elasticsearch Highlevel Java Restclient , 一个高性...

0
5
发表了资讯
2023/09/25 15:17

数据采集 ETL & 流批一体化框架 bboss v7.1.0 发布

数据采集 ETL & 流批一体化框架 bboss v7.1.0 发布 --- 高效、稳定、快速、安全 bboss --- 简化版 Flink,一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成: Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java 客户端框架 数据采集同步 ETL ,一个基于 java 语言实现数据采集作业的强大 ETL 工具,提供丰富的输入插件和输出插件,...

0
6
发表了资讯
2023/09/04 09:29

数据采集 ETL & 流批一体化框架 bboss v7.0.9 发布

数据采集 ETL & 流批一体化框架 bboss v7.0.9 发布 --- 高效、稳定、快速、安全 bboss 是一个基于开源协议 Apache License 发布的开源项目,由开源团队 bboss 运维,主要由以下三部分构成: Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的 Elasticsearch/Opensearch java 客户端框架 数据采集同步 ETL ,一个基于 java 语言实现数据采集作业的强大 ETL 工具,提供丰富的输入插件和输出插件,可以基于插件规范...

0
3
发表了资讯
2023/07/25 09:29

数据采集 ETL & 流批一体化框架 bboss v7.0.5 发布

数据采集 ETL & 流批一体化框架 bboss v7.0.5 发布 --- 高效、稳定、快速、安全 bboss是一个基于开源协议Apache License发布的开源项目,由开源团队bboss运维,主要由以下三部分构成: Elasticsearch Highlevel Java Restclient , 一个高性能高兼容性的Elasticsearch/Opensearch java客户端框架 数据采集同步ETL ,一个基于java语言实现数据采集作业的强大ETL工具,提供丰富的输入插件和输出插件,可以基于插件规范轻松扩展新的...

0
2
发表了资讯
2023/06/16 12:49

数据采集 ETL & 流批一体化框架 bboss v6.9.9 发布

数据采集 ETL & 流批一体化框架 bboss v6.9.9 发布 --- 高效、稳定、快速、安全 bboss由三部分构成 Elasticsearch Highlevel Java Restclient 数据采集同步ETL 流批一体化计算框架 详细介绍文档: https://esdoc.bbossgroups.com/#/README 介绍视频 Elasticsearch Bboss Stream ETL介绍视频 实时采集Mysql binlog增删改数据视频教程 v6.9.9 功能改进 增加作业运行结束监听器(异步/同步),可以通过监听器识别作业是异常结束还是...

1
9
发表了资讯
2023/05/29 09:21

数据采集 ETL & 流批一体化框架 bboss v6.9.6 发布

重磅功能发布 1. 提供基于 binlog的mysql增删改数据实时增量采集功能,新增mysql binlog输入采集插件,支持两种采集模式:监听master-slave模式和直接采集binlog日志文件模式, 可以扫码免费观看mysql binlog插件使用视频教程,了解采集作业开发、调测、构建配置部署实际操作过程 2. Elasticsearch输入插件增量采集支持LocalDateTime兼容性支持,支持纳秒级时间增量粒度 其他功能改进 优化kafka组件:增加弹性动态调整kafka消费...

0
13
发表了资讯
2023/04/11 09:00

​数据采集 ETL & 流批一体化框架 bboss v6.8.9 发布

数据采集ETL&流批一体化框架bboss v6.8.9 发布---高效、稳定、快速、安全 快速导入bboss 一般项目导入下面的maven坐标即可: <dependency> <groupId>com.bbossgroups.plugins</groupId> <artifactId>bboss-elasticsearch-rest-jdbc</artifactId> <version>6.8.9</version> </dependency> 如果是spring boot项目还需要导入下面的maven坐标: <dependency>...

0
8
发表了资讯
2023/03/20 09:10

数据采集&流批一体化工具 bboss v6.8.7 发布

bboss-datatran 由 bboss 开源的数据采集 & 流批一体化工具,提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能。 v6.8.7 功能改进 扩展http输入插件:增加http并行查询功能,可以根据需要划分多个参数组,实现http服务数据的并行查询功能,从而获得更好的数据采集同步性能 扩展文件采集插件:增加一次性扫描导入本地文件/FTP文件功能,通过属性disableScanNewFiles进行控制:true 一次性扫描导...

1
6
发表了资讯
2022/12/27 09:08

数据采集 ETL 工具 bboss-datatran v6.7.7 发布

数据采集 ETL 工具 bboss-datatran v6.7.7 发布,支持 Elasticsearch 8 以及其他 Elasticsearch 低版本和 Opensearch 之间数据同步。 新增轻量级但功能强大的大数据指标分析计算模块,可以非常方便地实现基于时间窗口的多种维度的实时指标计算和离线指标计算功能,适用于有限维度指标key和无限维度指标key,同时可以非常方便地将指标分析计算结果存储到各种数据库,以极低成本快速构建企业级大数据分析应用,导入以下包即可: ...

0
10
发表了资讯
2022/10/24 09:31

数据采集 ETL 工具 bboss-datatran v6.7.6 发布

数据采集 ETL 工具 bboss-datatran v6.7.6 发布,支持Elasticsearch 8以及其他Elasticsearch低版本和Opensearch之间数据同步。 bboss-datatran 是一款基于 java 语言开发的数据采集同步工具,提供数据采集、数据清洗转换处理和数据入库功能,支持在 Elasticsearch、关系数据库 (mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件 / 日志文件、excel 文件、csv 文件、SFTP/FTP、http/https 等多种数据...

0
19
发表了资讯
2022/08/15 09:27

数据采集 ETL 工具 bboss-datatran v6.7.2 发布

数据采集 ETL 工具 bboss-datatran v6.7.2 发布,bboss-datatran 是一款基于 java 语言开发的数据采集同步工具,提供数据采集、数据清洗转换处理和数据入库功能,支持在 Elasticsearch、关系数据库 (mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件 / 日志文件、excel 文件、csv 文件、SFTP/FTP、http/https 等多种数据源之间进行海量数据采集同步;支持数据实时增量和全量数据采集;提供了作业任...

0
22
发表了资讯
2022/08/01 14:40

数据采集 ETL 工具 bboss-datatran v6.7.1 发布

数据采集 ETL 工具 bboss-datatran v6.7.1 发布,bboss-datatran是一款基于java语言开发的数据采集同步工具,支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件/日志文件、excel文件、csv文件、SFTP/FTP、http/https等多种数据源之间进行海量数据同步;支持数据实时增量和全量数据采集。提供了作业任务控制API、作业监控api,支持作业启动、暂停(pause)、继续(res...

0
15
发表了资讯
2022/07/18 10:01

数据采集 ETL 工具 bboss-datatran v6.7.0 发布

数据采集 ETL 工具 bboss-datatran v6.7.0 发布 v6.7.0 功能改进 数据同步DB导出插件改进:支持为sql语句额外指定同步条件进行全量或者定时增量导入 定时按特定条件导入数据 importBuilder.setSql("select * from batchtest1 where optime >= #[start_optime] and optime < #[end_optime]"); importBuilder.addParam("start_optime", TimeUtil.parserDate("yyyy-MM-dd HH🇲🇲ss","2018-03-21 00:27:21")) ...

0
18
发表了资讯
2022/05/05 09:26

数据采集 ETL 工具 Elasticsearch-datatran v6.5.8 发布

数据采集 ETL 工具 Elasticsearch-datatran v6.5.8发布 v6.5.8 功能改进 数据同步改进:采用外部数据源管理增量状态时,停止作业后重启作业失败问题处理 数据同步改进:优化同时向多个elasticsearch写入数据功能 数据同步改进:优化sqlite增量管理机制 优化IP地址解析性能 改进批量bulk操作filter_path配置,默认不设置filter_path,如果需要设置,可以参考文档中涉及批处理内容 https://esdoc.bbossgroups.com/#/document-cru...

5
26
发表了资讯
2022/04/06 09:54

数据采集 ETL 工具 Elasticsearch-datatran v6.5.5 发布

数据采集 ETL 工具 Elasticsearch-datatran v6.5.5发布, v6.5.5 功能改进 带来全新改版的bboss官网,欢迎大家体验:https://www.bbossgroups.com 数据同步机制优化:各插件tran逻辑复用优化 ftp/sftp文件下载锁优化,大幅提升文件采集插件性能 增加ftp/sftp文件并行下载机制,通过setDownloadWorkThreads实现并行下载线程数,默认为3个,如果设置为0代表串行下载 FtpConfig ftpConfig = new FtpConfig().setFtpIP("10.13.6.12...

2
18
发表了资讯
2022/03/07 10:34

数据采集 ETL 工具 Elasticsearch-datatran v6.5.2 发布

数据采集ETL工具 Elasticsearch-datatran v6.5.0 发布。 Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据采集同步;支持本地/ftp文件(文本文件、excel文件、csv文件)实时增量采集到kafka/elasticsearch/databas...

9
42
发表了资讯
2022/01/24 12:42

数据采集 ETL 工具 Elasticsearch-datatran v6.5.0 发布

数据采集ETL工具 Elasticsearch-datatran v6.5.0 发布。 Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据采集同步;支持本地/ftp日志文件实时增量采集到kafka/elasticsearch/database;支持根据字段进行数据记录...

0
18
发表了资讯
2021/12/06 12:34

数据采集 ETL 工具 Elasticsearch-datatran v6.3.9 发布

数据采集ETL工具 Elasticsearch-datatran v6.3.9 发布。 Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据采集同步;支持本地/ftp日志文件实时增量采集到kafka/elasticsearch/database;支持根据字段进行数据记录...

3
28
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
4 评论
184 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部