Hadoop 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Hadoop 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Hadoop 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据存储
开源组织 Apache
地区 不详
投 递 者 不详
适用人群 未知
收录时间 2008-09-14

软件简介

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

下图是Hadoop的体系结构:

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(25)
2021/06/03 08:33

Cloudera 将以 53 亿美元被收购并私有化

企业数据云管理公司 Cloudera 宣布已达成一项最终协议,其将被 Clayton、Dubilier & Rice("CD&R")和 KKR 的关联公司收购,全现金交易价值约为 53 亿美元。该交易预计于 2021 年下半年完成,将使得 Cloudera 成为一家私人公司。 Cloudera 于 2008 年由谷歌、Facebook、甲骨文和雅虎公司的一群工程师创立;是 Hadoop 数据管理软件与服务提供商,也是 Hadoop 生态系统中,规模最大、知名度最高的公司。 Cloudera 的董事会已经批准...

0
3
发表于AI & 大数据专区
2020/07/31 07:53

Apache Hadoop 3.3.0 发布,首个支持 ARM 的版本

Apache Hadoop 3.3.0 发布了,主要更新内容有: 支持 ARM:这是第一个支持 ARM 架构的版本 从 2.5.0 升级 protobuf:随着 protobuf-2.5.0 结束生命周期,Protobuf 升级到 3.7.1 S3A 增强功能:对 S3A 代码进行了许多增强,包括委托令牌支持、更好的 404 缓存处理、S3guard 性能、弹性增强 ABFS 增强功能:解决问题并调整需要调整的内容,在适当的地方添加更多测试。改进文档,尤其是故障排除 腾讯云 COS 文件系统实现:COSN 文件...

10
2
发表于AI & 大数据专区
2019/01/30 07:53

Apache Hadoop 3.2.0 发布,3.x 系列最大版本

Apache Hadoop 3.2.0 发布了,这是 Hadoop 3.x 系列中最大的一个版本,带来了许多新功能和 1000 多个更改,通过 Hadoop 3.0.0 的云连接器的增强功能进一步丰富了平台,并服务于深度学习用例和长期运行的应用。 亮点包括: ABFS 文件系统连接器:支持最新的 Azure Datalake Gen2 Storage 增强 S3A 连接器:对 AWS S3 和 DynamoDB IO 更好地弹性节流 YARN 中的节点属性支持:有助于根据节点的属性标记节点上的多个标签,并支持根据...

0
6
发表于AI & 大数据专区
2019/01/12 08:04

Hadoop 巨头完成合并,成为全球第二大开源软件公司

去年 10 月份,大数据领域 Hadoop 巨头 Cloudera 与 Hortonworks 宣布合并,给业界带来不小震动。 两家公司希望通过合并,创造出一个年收入达到 7.2 亿美元的新实体,并制定清晰的行业标准,成为下一代数据平台领先者,提供业界第一个企业级数据云,提高公共云的易用性和灵活性。当时预计该交易将在 2019 年第一季度完成。 11 日,Cloudera 官方发文宣布合并正式完成,新公司名采用“Cloudera”。Hortonworks 联合创始人、现 Cl...

11
15
发表于软件架构专区
2019/01/04 08:09

2018 年的 Apache 社区不平凡:让数字来说话

对于整个Apache社区来说,2018年是不平凡的一年。Apache软件基金会共管理着近2亿行代码,我们持续不断地取得成功,这归功于社区主导的开发模式:“Apache之道”(The Apache Way),300多个Apache项目及各个社区通力合作、齐心协力执行这一模式。主要的成绩包括如下: Apache项目:https://projects.apache.org/ 项目和子项目总数:328个(不包括Apache实验室旗下的项目) 顶级项目:198个 Apache孵化器中的新兴项目:51个 其他...

6
8
发表于服务端专区
2018/12/11 08:08

Hadoop 之父:开发者应将开源纳入职业规划

据福布斯报道,Hadoop 之父 Doug Cutting 在近日的 Oracle Code One 大会(原 JavaOne ) 上,获得了“开拓者奖”(Groundbreaker Award)。Doug Cutting 是 Hadoop 的创始人之一,Cloudera 的首席架构师,同时也是开源运动的传播者,为 Hadoop 和 Lucene 以及许多其他项目做出了贡献。 图片来自福布斯 Doug Cutting 还分享了他对开源的看法,他喜欢开源的原因之一是因为开源软件的寿命很长。他在 2000 年之前写的商业软件,早已...

8
11
发表于开发技能专区
2018/05/19 08:01

Google 收购 Cask 以强化云端 Hadoop 的应用生态

Cask 的主要产品 CDAP 是一个开源的应用平台,它整合了 Hadoop 生态,提供数据以及应用的抽象层,使得开发者能以快速且简单的方式开发应用。 Cask 创始人 Jonathan Gray 和 Nitin Motgi 在官方博客宣布加入了 Google Cloud 的消息,并表示,即使加入了 Google Cloud,他们仍会继续维护其原来的数据应用程序部署平台(Cask Data Application Platform,CDAP)。CADP 定义并实现了多种 Hadoop 基础架构的整合,支持 HBase、HDFS、Y...

1
2
2018/04/13 10:51

Apache Hadoop 3.1.0 发布,原生支持 GPU 和 FPGA

Apache Hadoop 3.1.0 正式发布了,Apache Hadoop 3.1.0 是2018年 Hadoop-3.x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在正式环境下使用,请等待 3.1.1 或 3.1.2 版本。 这个版本的 Hadoop 带来了许多重大的变化,如下: YARN 原生支持 GPU(详见 YARN-6223) YARN 原生支持 FPGA(详见 YARN-5983) 支持原生的 YARN 服务(详见 YARN-5079 / YARN-4793 / YA...

6
5
发表于开发技能专区
2018/03/26 18:49

Apache Hadoop 3.0.1 发布,bug 修复和性能增强

Apache Hadoop 3.0.1 版本正式发布,属于 3.0 版本线,包含了 42 处 bug 修复和性能加强。 请注意:NameNode 的默认 RPC 端口改回了 8020(在 3.0.0 版本中为 9820) HADOOP-15027 AliyunOSS: Support multi-thread pre-read to improve sequential read from Hadoop to Aliyun OSS performance: Support multi-thread pre-read in AliyunOSSInputStream to improve the sequential read performance from Hadoop to Aliyun OSS...

1
4
发表于服务端专区
2018/01/18 08:11

Adobe 将 Hadoop 连接器添加到 Adobe Campaign

Adobe 正在添加一个 Hadoop 连接器,该连接器将向 Adobe Campaign(该公司体验云的一部分)所能分析的内容添加更多数据。 Adobe 高级产品营销总监 Bruce Swann 表示,通过 Apache Hive 增加 Hadoop 将从自主终端,销售点终端和移动设备中引入更多的数据来源,在各个渠道协调营销活动。 Adobe Campaign 已连接到各种交易数据库,Amazon Redshift 和 Greenplum。 目标是将 Hadoop 作为一个选项添加到各种渠道的工作流程中,而无需...

2
2
发表于运维专区
2018/01/01 08:17

几个关键数据,带你快速回顾 Apache 的 2017

对于 Apache 社区来说,2017 是令人兴奋和富有成效的一年。Apache 官博发表了一篇名为“Apache in 2017”的文章,回顾了其 2017 年的一些关键数字和实现的成就: Apache 项目 — 总项目数+子项目 - 318 个 顶级项目 - 193 个 孵化中项目 - 53 个 社区/用户 — ASF 成员 - 683 新入选成员 - 64 Apache Committers - 6504 Apache 代码 — 3050 个提交者更改了 60,276,457 行代码,有超过了 188262 个提交。 Commits Top 5 — Hado...

2
6
发表了资讯
2017/12/15 09:51

Apache Hadoop 3.0.0 GA 正式发布,要求 Java 8

编者注:Hadoop 发布了全新 3.0 版本,关于该版本的主要改进说明,发行说明和改进记录。 今天凌晨 Apache Hadoop 3.0.0 GA 版本正式发布,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!这个版本是 Apache Hadoop 3.0.0 的第一个稳定版本,有很多重大的改进,比如支持 EC、支持多于2个的NameNodes、Intra-datanode均衡器等等。下面是关于 Apache Hadoop 3.0.0 GA 的正式介绍。 Java最低版本要求从Java7 更改成Java8 所有的...

18
32
发表了资讯
2017/06/15 13:40

漏洞预警:Hadoop 未授权访问可导致数据泄露

近日,国外媒体报道全球Hadoop服务器因配置不安全导致海量数据泄露,涉及使用Hadoop分布式文件系统(HDFS)的近4500台服务器,数据量高达5120 TB (5.12 PB),经分析,这批数据泄露的近4500台HDFS服务器中以美国和中国为主。 事件原因: 互联网上暴露的Hadoop服务器如果没有配置访问认证均可能受影响,攻击者针对HDFS的攻击删除了大多数目录,并会添加一个名为“NODATA 4U_SECUREYOURSHIT”的新目录和“PLEASE_README”的目录,...

7
12
发表了资讯
2016/10/05 00:00

大数据领域开源技术,除了 Hadoop 你还知道哪些?

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。 想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术。如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析...

5
172
发表了资讯
2016/09/09 00:00

揭秘即将亮相 HadoopCon 2016 的大数据新星

根据IDC研究显示,大数据解决方案将在未来四年中,帮助全球企业分享大约1.6万亿美元新增收入的数据红利。在大数据产业发展中,以Hadoop为代表的开源大数据生态成为大数据和云计算的重要技术支撑,有效推动了开源社区的用户和贡献者,带动了技术进步与商业发展。 开源大数据生态快速发展,Hadoop已经不是一个大数据软件,而成为大数据平台,Hadoop的生态圈日益壮大。其中,Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之...

0
32
发表了资讯
2016/09/09 00:00

Apache Hadoop 3.0.0-alpha1,重写 Shell 脚本

Apache Hadoop 3.0.0-alpha1发布了。 部分更新内容: Hadoop 3.0.0-alpha1在Java 8下编译,使用Java 7以及以下版本需更新到Java 8 重写了shell脚本,支持超过两个NameNode 详情请参照发行说明: Hadoop 3.0.0-alpha1 Release Notes 主页:http://hadoop.apache.org/docs/r3.0.0-alpha1/index.html 下载:http://hadoop.apache.org/releases.html...

5
5
发表了资讯
2015/12/09 00:00

实时股票分析系统的架构与算法

【编者的话】如果能在一台服务器上应用人工智能和机器学习算法处理每天的股票交易,而自己则在夏威夷的海滩上享受生活,那将是多么惬意呀。虽然股票 价格的变化受多种因素的影响,世上也没有免费的午餐,但是有些公司依然能够借助于开源的机器学习算法和数据分析平台得到“更好、更健康、更便宜的午餐”。 本文搜集并整理了一些如何实现实时股票分析系统的资料,从架构和算法两个层面给出了一种可行的方案。 虽然股票交易市场一...

25
389
发表了资讯
2015/11/28 00:00

一个 Hadoop 老兵的自白

Apache Hadoop 是一个免费软件,但实际上,除非是拥有庞大工程师团队的大公司,否则最好不要去创建仅供内部使用的Hadoop版本,因为如果要购买技术支持,那 Hadoop 就不是免费的了。Jim Scott 是 MapR 企业战略&架构部门的负责人。2009年,他接触了自己的第一个 Hadoop 版本 Cloudera。他发现,Apache Hadoop 平台存在一些固有的设计缺陷。近日,他从以下几个方面分析了这些缺陷,并介绍了 MapR 的解决方案。 Append-only文件访问...

28
65
发表了资讯
2015/09/26 00:00

Apache Hadoop 2.6.1 发布

Apache Hadoop 2.6.1发布了,在2.6.x版本线上是一个点的发布,修复2.6.0很多关键问题。 详细请参照 Hadoop 2.6.1 Release Notes .

0
8
发表了资讯
2015/09/22 00:00

O'Reilly 向亚洲引进 Strata+Hadoop 大数据会议

O'Reilly Media, Inc 继 Velocity China 之后,今年 12 月份将再度向亚洲市场重磅引进 Strata + Hadoop World 大会。此次大会由 O'Reilly Media, Inc 携手 Cloudera 联合举办,汇聚行业精英,分析师、决策者,着眼于重塑并展望经济与技术的未来。 Strata+Hadoop World 被誉为世界的大数据盛会,它为各种技术提供了深度交流的机会,参会者在这里能看到最领先的技术、最广泛的应用场景、最有趣的案例教学,以及最全面的大数据行业...

6
6
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
Netty 环境问题漏洞
HTTP请求的解释不一致性(HTTP请求私运)
Netty是Netty社区的一款非阻塞I/O客户端-服务器框架,它主要用于开发Java网络应用程序,如协议服务器和客户端等。 Netty 4.1.42.Final之前版本中存在安全漏洞。攻击者可利用该漏洞实施HTTP请求走私攻击。
CVE-2019-16869 MPS-2019-12064
2022-08-08 18:05
org.ojalgo:ojalgo 存在密码学问题漏洞
密码学问题
此软件包的受影响版本容易受到不安全加密算法的攻击。它使用不安全的 MD5 加密算法来存储密码。
MPS-2022-11904
2022-08-08 18:05
cJSON 缓冲区错误漏洞
cJSON是一款轻量级的开源JSON解析器。 cJSON 1.7.11之前版本中存在缓冲区错误漏洞。该漏洞源于网络系统或产品在内存上执行操作时,未正确验证数据边界,导致向关联的其他内存位置上执行了错误的读写操作。攻击者可利用该漏洞导致缓冲区溢出或堆溢出等。
CVE-2019-11835 MPS-2019-4975
2022-08-08 18:05
Google protobuf 安全漏洞
不正确的行为次序
Google protobuf是美国谷歌(Google)公司的一种数据交换格式。 protobuf-java 存在安全漏洞,该漏洞允许一个小的恶意负载可以通过创建大量导致频繁、重复暂停的短期对象来占用解析器几分钟。
CVE-2021-22569 MPS-2021-19066
2022-08-08 18:05
Apache Log4j 安全漏洞
当攻击者对 Log4j 配置具有写访问权限时,Log4j 1.2 中的 JMSAppender 容易受到不受信任数据的反序列化。攻击者可以提供 TopicBindingName 和 TopicConnectionFactoryBindingName 配置,导致 JMSAppender 执行 JNDI 请求,从而以类似于 CVE-2021-44228 的方式执行远程代码。请注意,此问题仅在专门配置为使用 JMSAppender(不是默认设置)时影响 Log4j 1.2。 Apache Log4j 1.2 已于 2015 年 8 月结束生命周期。用户应升级到 Log4j 2,因为它解决了以前版本中的许多其他问题。
CVE-2021-4104 MPS-2021-38359
2022-08-08 18:05
Google protobuf 缓冲区错误漏洞
跨界内存写
Google protobuf是美国谷歌(Google)公司的一种数据交换格式。 Google protobuf中存在缓冲区错误漏洞。远程攻击者可利用该漏洞执行代码。
CVE-2015-5237 MPS-2017-10841
2022-08-08 18:05
cJSON 缓冲区错误漏洞
cJSON是一款轻量级的开源JSON解析器。 cJSON 1.7.11之前版本中存在缓冲区错误漏洞。该漏洞源于网络系统或产品在内存上执行操作时,未正确验证数据边界,导致向关联的其他内存位置上执行了错误的读写操作。攻击者可利用该漏洞导致缓冲区溢出或堆溢出等。
CVE-2019-11834 MPS-2019-4974
2022-08-08 18:05
Apache Log4j 信任管理问题漏洞
证书验证不恰当
Apache Log4j是美国阿帕奇(Apache)基金会的一款基于Java的开源日志记录工具。 Apache Log4j中存在信任管理问题漏洞,该漏洞源于SmtpAppender没有验证主机名称与SMTPS连接的SSL/TLS证书是否匹配。攻击者可通过实施中间人攻击利用该漏洞拦截SMTPS连接,获取日志消息。
CVE-2020-9488 MPS-2020-6684
2022-08-08 18:05
Apache Log4j SQL注入漏洞
SQL注入
根据设计,Log4j 1.2.x 中的 JDBCAppender 接受 SQL 语句作为配置参数,其中要插入的值是来自 PatternLayout 的转换器。消息转换器 %m 可能总是包含在内。这允许攻击者通过将精心制作的字符串输入到记录的应用程序的输入字段或标题中来操纵 SQL,从而允许执行意外的 SQL 查询。请注意,此问题仅在专门配置为使用 JDBCAppender(不是默认设置)时才会影响 Log4j 1.x。从 2.0-beta8 版本开始,重新引入了 JDBCAppender,适当支持参数化 SQL 查询,并进一步自定义写入日志的列。 Apache Log4j 1.2 已于 2015 年 8 月结束生命周期。用户应升级到 Log4j 2,因为它解决了以前版本中的许多其他问题。
CVE-2022-23305 MPS-2022-1444
2022-08-08 18:05
oracle communications pricing design center-12.0.0.5加锁机制不恰当漏洞
加锁机制不恰当
在 1.6.0 之前的 JetBrains Kotlin 中,无法锁定多平台 Gradle 项目的依赖项。
CVE-2022-24329 MPS-2022-3233
2022-08-08 18:05
Apache Log4j 代码问题漏洞
反序列化
当攻击者对 Log4j 配置具有写访问权限或配置引用攻击者有权访问的 LDAP 服务时,所有 Log4j 1.x 版本中的 JMSSink 都容易受到不受信任数据的反序列化。攻击者可以提供一个 TopicConnectionFactoryBindingName 配置,使 JMSSink 执行 JNDI 请求,从而以类似于 CVE-2021-4104 的方式执行远程代码。请注意,此问题仅在专门配置为使用 JMSSink(不是默认设置)时影响 Log4j 1.x。 Apache Log4j 1.2 已于 2015 年 8 月结束生命周期。用户应升级到 Log4j 2,因为它解决了以前版本中的许多其他问题。
CVE-2022-23302 MPS-2022-1446
2022-08-08 18:05
Google Guava 代码问题漏洞
不加限制或调节的资源分配
Google Guava是美国谷歌(Google)公司的一款包括图形库、函数类型、I/O和字符串处理等的Java核心库。 Google Guava 11.0版本至24.1.1版本(不包括24.1.1版本)中存在代码问题漏洞。该漏洞源于网络系统或产品的代码开发过程中存在设计或实现不当的问题。
CVE-2018-10237 MPS-2018-5515
2022-08-08 18:05
Apache Log4j 代码问题漏洞
反序列化
Log4j是美国阿帕奇(Apache)软件基金会的一款基于Java的开源日志记录工具。Log4j 1.2版本中包含一个SocketServer类,在未经验证的情况下,该SocketServe类很容易接受序列化的日志事件并对其进行反序列化,在结合反序列化工具使用时,可以利用该类远程执行任意代码。
CVE-2019-17571 MPS-2019-17271
2022-08-08 18:05
DaveGamble/cJSON cJSON 代码问题漏洞
cJSON是一款轻量级的开源JSON解析器。 DaveGamble/cJSON cJSON 1.7.8版本中的‘cJSON_GetObjectItemCaseSensitive()’函数存在代码问题漏洞。该漏洞源于网络系统或产品的代码开发过程中存在设计或实现不当的问题。
CVE-2019-1010239 MPS-2019-8242
2022-08-08 18:05
Google Guava 访问控制错误漏洞
关键资源的不正确权限授予
Google Guava是美国谷歌(Google)公司的一款包括图形库、函数类型、I/O和字符串处理等的Java核心库。 Guava 30.0版本之前存在访问控制错误漏洞,该漏洞源于Guava存在一个临时目录创建漏洞,允许访问机器的攻击者可利用该漏洞潜在地访问由Guava com.google.common.io. Files. createTempDir() 创建的临时目录中的数据。攻击者可以利用该漏洞访问特殊目录。
CVE-2020-8908 MPS-2020-17429
2022-08-08 18:05
JetBrains Kotlin 授权问题漏洞
缺省权限不正确
JetBrains Kotlin是捷克JetBrains公司的一款在Java虚拟机上运行的静态类型编程语言。 JetBrains Kotlin before 1.4.2 存在授权问题漏洞,该漏洞源于权限不安全,攻击者可利用该漏洞读取数据。
CVE-2020-29582 MPS-2021-1082
2022-08-08 18:05
io.netty:netty-handler 存在证书验证不恰当漏洞
证书验证不恰当
io.netty:netty-handler 是一个提供异步事件驱动的网络应用程序框架和工具的库,用于快速开发可维护的高性能和高可扩展性协议服务器和客户端。换句话说,Netty 是一个 NIO 客户端服务器框架,可以快速轻松地开发协议服务器和客户端等网络应用程序。它极大地简化和流线了网络编程,例如 TCP 和 UDP 套接字服务器。此软件包的受影响版本容易受到不正确的证书验证的影响。在 Netty 4.1.x 中默认禁用证书主机名验证,这使得它可能容易受到中间人攻击。
MPS-2022-12067
2022-08-08 18:05
Apache Log4j 代码问题漏洞
反序列化
CVE-2020-9493 发现了 Apache Chainsaw 中存在的反序列化问题。在 Chainsaw V2.0 之前,Chainsaw 是 Apache Log4j 1.2.x 的一个组件,存在同样的问题。
CVE-2022-23307 MPS-2022-1445
2022-08-08 18:05
Eclipse Jetty 输入验证不恰当漏洞
输入验证不恰当
Eclipse Jetty是Eclipse基金会的一个开源的、基于Java的Web服务器和Java Servlet容器。 Eclipse Jetty 存在安全漏洞,该漏洞源于无效的 URI 解析可能会产生无效的 HttpURI.authority。攻击者利用此漏洞会导致Proxy scenario失败。
CVE-2022-2047 MPS-2022-18060
2022-08-08 18:05
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
25 评论
1K 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部