数据采集ETL工具 Elasticsearch-datatran v6.5.0 发布。
Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据采集同步;支持本地/ftp文件(文本文件、excel文件、csv文件)实时增量采集到kafka/elasticsearch/database;支持根据字段进行数据记录切割;支持根据文件路径信息将不同文件数据写入不同的数据库表。
提供自定义处理采集数据功能,可以按照自己的要求将采集的数据处理到目的地,支持数据来源包括:database,elasticsearch,kafka,mongodb,hbase,file,ftp等,想把采集的数据保存到什么地方,由自己实现CustomOutPut接口处理即可。
Elasticsearch-datatran 的独特之处,其数据同步作业采用java语言开发,可以用采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据,可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小。如果你还在苦于logstash、flume、filebeat之类的开源工具无法满足复杂的、海量的数据处理加工场景,那么Elasticsearch-datatran是一个不错的选择。
Elasticsearch版本兼容性:支持各种Elasticsearch版本(1.x,2.x,5.x,6.x,7.x,8.x+)之间相互数据迁移
一般项目导入下面的maven坐标即可:
<dependency> <groupId>com.bbossgroups.plugins</groupId> <artifactId>bboss-elasticsearch-rest-jdbc</artifactId> <version>6.5.2</version> </dependency>
如果是spring boot项目还需要导入下面的maven坐标:
<dependency> <groupId>com.bbossgroups.plugins</groupId> <artifactId>bboss-elasticsearch-spring-boot-starter</artifactId> <version>6.5.2</version> </dependency>
yyyy-MM-dd'T'HH:mm:ss.SSS'Z'
时,需要设置字段相对应的日期格式,例如:
yyyy-MM-dd HH:mm:ss
如果是默认utc格式,则不需要手动设置指定
importBuilder.setLastValueDateformat("yyyy-MM-dd HH🇲🇲ss");
大数据同步:postgresql fetchsize机制支持改进
优化es客户端多数据源管理功能:spring boot多数据源启动加载顺序问题处理
sql模板变量#[xxxxx]支持设置数据字段sql类型,通过type属性设置数值类型,使用案例:
#[collecttime,type=timestamp]
完整的sql
<property name="insertSQLpostgresql"> <![CDATA[INSERT INTO batchtest1 (id, name, author, content, title, optime, oper, subtitle, collecttime,testInt,ipinfo) VALUES ( #[id],#[operModule], ## 来源dbdemo索引中的 operModule字段 #[author], ## 通过datarefactor增加的字段 #[logContent], ## 来源dbdemo索引中的 logContent字段 #[title], ## 通过datarefactor增加的字段 #[logOpertime], ## 来源dbdemo索引中的 logOpertime字段 #[logOperuser], ## 来源dbdemo索引中的 logOperuser字段 #[subtitle], ## 通过datarefactor增加的字段 #[collecttime,type=timestamp], ## 通过datarefactor增加的字段 #[testInt], ## 通过datarefactor增加的字段 #[ipinfo]) ## 通过datarefactor增加的地理位置信息字段 ]]></property>
type属性值范围:
string,int,long,double,float,short,date,timestamp,bigdecimal,boolean,byte,blobfile,blob,clobfile,clob,object
5. 处理增量时间状态值写入mysql管理的增量状态数据库失败问题
6. 时间转换优化:localdatetime和localdate向date类型转换,避免出错误
7. 数据同步作业调度增加对xxl-job 2.3.0的支持,需将原maven坐标bboss-elasticsearch-rest-jdbc调整为bboss-datatran-schedule-xxljob
示例如下: xxl-job 2.3.0以下版本采用的maven坐标
调整为xxl-job 2.3.0及更高版本采用的maven坐标:
<dependency> <groupId>com.bbossgroups.plugins</groupId> <artifactId>bboss-datatran-schedule-xxljob</artifactId> <version>6.5.2</version> </dependency>
xxl job 低版本案例工程
https://github.com/bbossgroups/db-elasticsearch-xxjob
xxl job 2x案例工程
https://github.com/bbossgroups/db-elasticsearch-xxjob2x
8. 文件采集插件改进:FileConfig/FtpFileConfig增加忽略文件开始行数设置,0或者小于0不起作用
private int skipHeaderLines;
9. 写入文件插件支持添加标题行功能:在生成csv文件或者其他需要头部行的文件可以使用,参考案例:
https://gitee.com/bboss/csv-dbhandle/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/DB2CSVFile.java
10. 增加excel文件采集功能:可以采集本地excel文件,亦可以从ftp/sftp服务器下载excel文件并采集,参考案例:
https://gitee.com/bboss/filelog-elasticsearch/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/ExcelFile2DBDemo.java
11. 增加生成excel文件功能:生成excel,亦可以将生成的excel文件上传到ftp服务器
生成excel 文件
https://gitee.com/bboss/elasticsearch-file2ftp/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/db/DB2ExcelFile.java
生成excel文件并上传ftp服务器
https://gitee.com/bboss/elasticsearch-file2ftp/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/db/DB2ExcelFile2Ftp.java
评论删除后,数据将无法恢复
数据采集 ETL 工具 Elasticsearch-datatran v6.5.2 发布
数据采集ETL工具 Elasticsearch-datatran v6.5.0 发布。
Elasticsearch-datatran 由 bboss 开源的数据采集同步ETL工具,提供数据采集、数据清洗转换处理和数据入库功能。支持在Elasticsearch、关系数据库(mysql,oracle,db2,sqlserver、达梦等)、Mongodb、HBase、Hive、Kafka、文本文件、SFTP/FTP多种数据源之间进行海量数据采集同步;支持本地/ftp文件(文本文件、excel文件、csv文件)实时增量采集到kafka/elasticsearch/database;支持根据字段进行数据记录切割;支持根据文件路径信息将不同文件数据写入不同的数据库表。
提供自定义处理采集数据功能,可以按照自己的要求将采集的数据处理到目的地,支持数据来源包括:database,elasticsearch,kafka,mongodb,hbase,file,ftp等,想把采集的数据保存到什么地方,由自己实现CustomOutPut接口处理即可。
Elasticsearch-datatran 的独特之处,其数据同步作业采用java语言开发,可以用采用java提供的所有功能和现有组件框架,随心所欲地处理和加工海量存量数据、实时增量数据,可以根据数据规模及同步性能要求,按需配置和调整数据采集同步作业所需内存、工作线程、线程队列大小。如果你还在苦于logstash、flume、filebeat之类的开源工具无法满足复杂的、海量的数据处理加工场景,那么Elasticsearch-datatran是一个不错的选择。
Elasticsearch版本兼容性:支持各种Elasticsearch版本(1.x,2.x,5.x,6.x,7.x,8.x+)之间相互数据迁移
导入bboss
一般项目导入下面的maven坐标即可:
如果是spring boot项目还需要导入下面的maven坐标:
v6.5.2 功能改进
时,需要设置字段相对应的日期格式,例如:
如果是默认utc格式,则不需要手动设置指定
大数据同步:postgresql fetchsize机制支持改进
优化es客户端多数据源管理功能:spring boot多数据源启动加载顺序问题处理
sql模板变量#[xxxxx]支持设置数据字段sql类型,通过type属性设置数值类型,使用案例:
完整的sql
type属性值范围:
5. 处理增量时间状态值写入mysql管理的增量状态数据库失败问题
6. 时间转换优化:localdatetime和localdate向date类型转换,避免出错误
7. 数据同步作业调度增加对xxl-job 2.3.0的支持,需将原maven坐标bboss-elasticsearch-rest-jdbc调整为bboss-datatran-schedule-xxljob
示例如下: xxl-job 2.3.0以下版本采用的maven坐标
调整为xxl-job 2.3.0及更高版本采用的maven坐标:
xxl job 低版本案例工程
https://github.com/bbossgroups/db-elasticsearch-xxjob
xxl job 2x案例工程
https://github.com/bbossgroups/db-elasticsearch-xxjob2x
8. 文件采集插件改进:FileConfig/FtpFileConfig增加忽略文件开始行数设置,0或者小于0不起作用
9. 写入文件插件支持添加标题行功能:在生成csv文件或者其他需要头部行的文件可以使用,参考案例:
https://gitee.com/bboss/csv-dbhandle/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/DB2CSVFile.java
10. 增加excel文件采集功能:可以采集本地excel文件,亦可以从ftp/sftp服务器下载excel文件并采集,参考案例:
https://gitee.com/bboss/filelog-elasticsearch/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/ExcelFile2DBDemo.java
11. 增加生成excel文件功能:生成excel,亦可以将生成的excel文件上传到ftp服务器
生成excel 文件
https://gitee.com/bboss/elasticsearch-file2ftp/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/db/DB2ExcelFile.java
生成excel文件并上传ftp服务器
https://gitee.com/bboss/elasticsearch-file2ftp/blob/main/src/main/java/org/frameworkset/elasticsearch/imp/db/DB2ExcelFile2Ftp.java