HData 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
HData 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
HData 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 GPL 3.0
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 程序开发常用工具包
开源组织
地区 国产
投 递 者 Jayer
适用人群 未知
收录时间 2016-07-08

软件简介

HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。HData在设计上同时参考了开源的Sqoop、DataX,却与之有不同的实现。HData采用“框架+插件”的结构,具有较好的扩展性,框架相当于数据缓冲区,插件则为访问不同的数据源提供实现。

【HData特性】

1、异构数据源之间高速数据传输;

2、跨平台独立运行;

3、数据传输过程全内存操作,不读写磁盘;

4、插件式扩展。

【HData设计】

  • 配置文件:XML格式,配置Reader、Writer的参数(如:并行度、数据库连接地址、账号、密码等);

  • Reader:数据读取模块,负责从数据源读取数据并写入RingBuffer;

  • Splitter:根据配置文件中Reader的并行度构造相应数据的ReaderConfig对象供Reader使用,以实现数据的并行读取;

  • RingBugffer:来自Disruptor的高性能环形数据缓冲区,基于事件监听模式的异步实现,采用无锁方式针对CPU缓存优化,在此用于Reader和Writer的数据交换;

  • Writer:数据写入模块,负责从RingBuffer中读取数据并写入目标数据源。

HData框架通过配置读取解析、RingBugffer 缓冲区、线程池封装等技术,统一处理了数据传输中的基本问题,并提供Reader、Splitter、Writer插件接口,基于此可以方便地开发出各种插件,以满足各种数据源访问的需求。

【编译&运行】

  • 编译

    执行 ./bin/package-hdata.sh 命令,执行成功后将会生成压缩包 ./buildhdata.tar.gz ,然后解压即可。

  • 运行

    ./bin/hdata --reader READER_NAME -Rk1=v1 -Rk2=v2 --writer WRITER_NAME -Wk1=v1 -Wk2=v2

READER_NAME、WRITER_NAME分别为读/写插件的名称,例如:jdbc、hive Reader插件的参数配置以-R为前缀,Writer插件的参数配置以-W为前缀。

配置参数请参考:https://github.com/stuxuhai/HData

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(18) 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
Apache Tomcat 安全特征问题漏洞
Apache Tomcat是美国阿帕奇(Apache)软件基金会下属的Jakarta项目的一款轻量级Web应用服务器,它主要用于开发和调试JSP程序,适用于中小型系统。 Apache Tomcat中的存在安全漏洞。攻击者可通过操作配置参数利用该漏洞绕过已配置的SecurityManager。以下版本受到影响:Apache Tomcat 9.0.0.M1版本至9.0.0.M9版本,8.5.0版本至8.5.4版本,8.0.0.RC1版本至8.0.36版本,7.0.0版本至7.0.70版本,6.0.0版本至6.0.45版本。
CVE-2016-6796 MPS-2017-9027
2022-08-08 20:58
Google protobuf 安全漏洞
不正确的行为次序
Google protobuf是美国谷歌(Google)公司的一种数据交换格式。 protobuf-java 存在安全漏洞,该漏洞允许一个小的恶意负载可以通过创建大量导致频繁、重复暂停的短期对象来占用解析器几分钟。
CVE-2021-22569 MPS-2021-19066
2022-08-08 20:58
Google Guava 访问控制错误漏洞
关键资源的不正确权限授予
Google Guava是美国谷歌(Google)公司的一款包括图形库、函数类型、I/O和字符串处理等的Java核心库。 Guava 30.0版本之前存在访问控制错误漏洞,该漏洞源于Guava存在一个临时目录创建漏洞,允许访问机器的攻击者可利用该漏洞潜在地访问由Guava com.google.common.io. Files. createTempDir() 创建的临时目录中的数据。攻击者可以利用该漏洞访问特殊目录。
CVE-2020-8908 MPS-2020-17429
2022-08-08 20:58
Apache Log4j 代码问题漏洞
反序列化
Apache Log4j是Apache基金会的一款基于Java的开源日志记录工具。 在Apache Log4j 2.15.0中解决CVE-2021-44228的修复在某些非默认配置中不完整:当日志配置使用具有上下文查找或线程上下文映射模式时,攻击者可以使用 JNDI 查找模式制作恶意输入数据,从而导致信息泄漏和某些环境中的远程代码执行以及所有环境中的本地代码执行。
CVE-2021-45046 MPS-2021-38665
2022-08-08 20:58
Apache Zookeeper 授权问题漏洞
授权机制缺失
Apache Zookeeper是美国阿帕奇(Apache)软件基金会的一个软件项目,它能够为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册等功能。 Apache ZooKeeper 1.0.0版本至3.4.13版本和3.5.0-alpha版本至3.5.4-beta版本中存在授权问题漏洞。该漏洞源于网络系统或产品中缺少身份验证措施或身份验证强度不足。
CVE-2019-0201 MPS-2019-5668
2022-08-08 20:58
Apache Commons IO 路径遍历漏洞
路径遍历
在 2.7 之前的 Apache Commons IO 中,当使用不正确的输入字符串(如“//../foo”或“\\..\foo”)调用方法 FileNameUtils.normalize 时,结果将是相同的值,因此可能如果调用代码将使用结果来构造路径值,则提供对父目录中文件的访问,但不能进一步访问(因此“有限”路径遍历)。
CVE-2021-29425 MPS-2021-4531
2022-08-08 20:58
commons-codec:commons-codec 存在信息暴露漏洞
信息暴露
commons-codec:commons-codec 是一个包含各种格式(如 Base64 和 Hexadecimal)的简单编码器和解码器的包。此软件包的受影响版本容易受到信息泄露的影响。
MPS-2022-11853
2022-08-08 20:58
org.apache.httpcomponents:httpclient 存在相对路径遍历漏洞
相对路径遍历
org.apache.httpcomponents:httpclient 是 Apache HttpComponents 项目的一个 HttpClient 组件。此软件包的受影响版本容易受到目录遍历的影响。
MPS-2022-12292
2022-08-08 20:58
Apache Commons HttpClient Amazon FPS 输入验证错误漏洞
证书验证不恰当
HttpClient是Apache Jakarta Common下的子项目,用来提供高效的支持HTTP协议的客户端编程工具包。 Apache Commons HttpClient 3.x版本使用在Amazon Flexible Payments Service (FPS) merchant Java SDK以及其他产品中时存在漏洞,该漏洞源于在主题Common Name(CN)或X.509证书的subjectAltName字段中,程序没有对服务器主机名与域名的匹配进行校验。中间人攻击者利用该漏洞通过任意有效的证书欺骗SSL服务器。
CVE-2012-5783 MPS-2012-4618
2022-08-08 20:58
Apache Hive 安全绕过漏洞
访问控制不恰当
Apache Hive是美国阿帕奇(Apache)软件基金会的一套基于Hadoop(分布式系统基础架构)的数据仓库软件。该软件提供了一个数据集成方法和一种高级的查询语言,以支持在Hadoop上进行大规模数据分析。 Apache Hive 0.13.1之前版本中存在安全漏洞,该漏洞源于在基于授权模式的SQL标准中,程序没有正确检查导入和导出语句的文件权限。远程攻击者可借助特制的URI利用该漏洞获取敏感信息。
CVE-2014-0228 MPS-2014-7058
2022-08-08 20:58
Google protobuf 缓冲区错误漏洞
跨界内存写
Google protobuf是美国谷歌(Google)公司的一种数据交换格式。 Google protobuf中存在缓冲区错误漏洞。远程攻击者可利用该漏洞执行代码。
CVE-2015-5237 MPS-2017-10841
2022-08-08 20:58
Apache Hive HiveServer2 安全漏洞
Apache Hive是美国阿帕奇(Apache)软件基金会的一套基于Hadoop(分布式系统基础架构)的数据仓库软件。该软件提供了一个数据集成方法和一种高级的查询语言,以支持在Hadoop上进行大规模数据分析。HiveServer2是其中的一个支持远程客户端想Hive提交请求并检索结果的可选服务。 Apache Hive 2.3.3和3.1.0及之前的版本中的HiveServer2服务存在安全漏洞。攻击者可利用该漏洞执行恶意操作。
CVE-2018-11777 MPS-2018-14541
2022-08-08 20:58
org.json:json 存在拒绝服务漏洞
拒绝服务
当初始化 JSONArray 对象并且输入是 [ 时此软件包的受影响版本易受拒绝服务 (DoS) 攻击。
MPS-2022-13520
2022-08-08 20:58
Apache Log4j 代码问题漏洞
反序列化
Log4j是美国阿帕奇(Apache)软件基金会的一款基于Java的开源日志记录工具。Log4j 1.2版本中包含一个SocketServer类,在未经验证的情况下,该SocketServe类很容易接受序列化的日志事件并对其进行反序列化,在结合反序列化工具使用时,可以利用该类远程执行任意代码。
CVE-2019-17571 MPS-2019-17271
2022-08-08 20:58
Apache Log4j 信任管理问题漏洞
证书验证不恰当
Apache Log4j是美国阿帕奇(Apache)基金会的一款基于Java的开源日志记录工具。 Apache Log4j中存在信任管理问题漏洞,该漏洞源于SmtpAppender没有验证主机名称与SMTPS连接的SSL/TLS证书是否匹配。攻击者可通过实施中间人攻击利用该漏洞拦截SMTPS连接,获取日志消息。
CVE-2020-9488 MPS-2020-6684
2022-08-08 20:58
Apache Zookeeper 信任管理漏洞
凭据管理错误
Apache Zookeeper是美国阿帕奇(Apache)软件基金会的一个软件项目,它能够为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册等功能。 Apache Zookeeper中存在安全漏洞,该漏洞源于程序记录明文admin密码。本地攻击者可通过读取日志利用该漏洞获取敏感信息。
CVE-2014-0085 MPS-2014-1943
2022-08-08 20:58
Apache Zookeeper 安全漏洞
Apache Zookeeper是美国阿帕奇(Apache)软件基金会的一个软件项目,它能够为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册等功能。 Apache Zookeeper 3.4.9版本和3.5.2版本中存在安全漏洞。攻击者可利用该漏洞造成拒绝服务。
CVE-2017-5637 MPS-2017-11297
2022-08-08 20:58
Apache Derby 安全漏洞
访问控制不恰当
Apache Derby是美国阿帕奇(Apache)软件基金会开发的一套开源的数据库管理系统。 Apache Derby中的导出处理过程存在安全漏洞。远程攻击者可利用该漏洞覆盖已存在的文件。以下版本受到影响:Apache Derby 10.1.2.1版本,10.2.2.0版本,10.3.1.4版本,10.4.1.3版本。
CVE-2010-2232 MPS-2017-12114
2022-08-08 20:58
Apache Derby 权限许可和访问控制问题漏洞
Apache Derby是美国阿帕奇(Apache)基金会的一套开源的数据库管理系统。 Apache Derby 10.3.1.4版本至10.14.1.0版本中存在权限许可和访问控制问题漏洞,该漏洞源于程序没有正确的校验接收到的网络数据包。远程攻击者可通过发送特制的网络数据包利用该漏洞启动用户控制的数据库(位置和内容)。
CVE-2018-1313 MPS-2018-5754
2022-08-08 20:58
Apache Zookeeper 访问控制错误漏洞
授权机制缺失
Apache Zookeeper是美国阿帕奇(Apache)软件基金会的一个软件项目,它能够为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册等功能。 Apache ZooKeeper 3.4.10之前版本和3.5.0-alpha版本至3.5.3-beta版本中存在访问控制错误漏洞,该漏洞源于程序没有强制执行身份验证/授权检测。攻击者可利用该漏洞修改目标系统上的数据。
CVE-2018-8012 MPS-2018-6313
2022-08-08 20:58
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
18 评论
403 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部