HDFS 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
HDFS 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
HDFS 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
开源组织 Apache
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2012-09-10

软件简介

HDFS

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是lucene的一部分。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (1)

加载中
http://www.oschina.net/p/hdfs 这个软件首页链接打不开了 #HDFS#
2015/11/04 09:42
回复
举报
更多评论
发表了资讯
2014/10/16 00:00

HDFS 进化,Hadoop 即将拥抱对象存储?

Hortonworks在博客中提出了一个全新的Hadoop对象存储环境——Ozone,能将HDFS从文件系统扩展成更加复杂的企业级存储层。 Hadoop社区的一些成员今日提议为Hadoop增加一个新的对象存储环境,这样一来Hadoop就能以与亚马逊S3、微软Azure以及OpenStack Swift等云存储服务一样的方式去存储数据。 Hadoop发行商Hortonworks本周二在官网发博文指 出,随着越来越多的企业采用Apache Hadoop,Hadoop已经成了各种企业数据的“数据湖”(D...

7
32
发表了资讯
2013/04/14 00:00

6 个开源的大数据文件系统

大数据在今天吸引了大量关注,个人、企业和政府机构之间的互动创造了数据的海洋,通过有效识别、访问、筛选和分析其中部分数据能带来新的见解和益处。大数据需要大量的储存空间,先进的存储基础设施必不可少,需要能在多台服务器上伸缩自如的存储解决方案。有许多优秀的开源文件系统能用于深入分析大数据,其中包括: QFS Quantcast File System (QFS) 是一个高性能、容错、分布式的文件系统,其开发是用于支持 MapReduce 处理或...

6
174
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2020/04/13 09:50

HDFS(二)HDFS架构

NameNode(master) and DataNodes(slave) 一个HDFS集群包括一个NameNode和一些DataNode。NameNode管理了一个文件系统的命名空间,可以供客户端访问这些文件。DataNode负责数据的存储。 NameNode暴露出namespace,允许用户的数据存储在文件系统中。 一个文件会被切分成一个或者多个blocks,这些block会被存储在一系列DataNode中。NameNode会执行文件系统namespace操作,例如打开文件、关闭文件、重命名文件或者目录。NameNode存储...

0
0
发表于开发技能专区
2020/05/14 00:32

HDFS

概念 Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(Commodity Hardware)上的分布式文件系统(Distributed File System)。 【操作系统中负责管理和存储文件信息的软件机构称为文件管理系统】 起源 HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。 优点 高容错性(fault-tolerant)【数据自动保存多个副本】 可以部署在低廉的机器上 提供高吞吐量,适...

0
0
发表了博客
2015/11/28 16:35

HDFS

一、Windows文件的个人理解 Windows系统中的一个文件,就是(目录+文件名)确定的,可是,文件真正的在磁盘上如何存储的我从来没关注过的,据説文件是以块的形式在磁盘中存储。若把磁盘比作大海,寻找一个文件真有大海捞针般的感觉。寻址,寻址,寻址,是个艰苦的事情,磁盘转啊转,一圈又一圈,好不容易找到了吧,又要一bit两bit三bit,传送到内存,传送,传送,传送,同样是个艰苦的事情,可是又有什么办法呢? 二、HDFS文件的...

0
1
发表了博客
2018/04/10 16:14

[HDFS Manual] CH8 HDFS Snapshots

HDFS Snapshots HDFS Snapshots. 1 1. 概述... 1 1.1 Snapshottable目录... 1 1.2 快照路径... 1 2. 带快照的更新... 1 3. 快照操作... 1 3.1 管理操作... 1 3.2 用户操作... 1 1. 概述 HDFS快照是只读的,一个时间点文件系统的一个副本。快照可以是整个文件系统或者文件系统的子树。快照通常用来备份,保护用户错误和灾难恢复。 HDFS快照的实现: · 快照创建是瞬间的,花费是O(1)不包过inode lookup时间。 · 如果和快照相关的...

0
0
2020/04/13 09:53

HDFS(一) HDFS设计目标

介绍 HDFS(Hadoop Distributed File System)是一个分布式文件系统,可以运行在廉价的硬件上。与其他已有的分布式文件系统类似,但是最明显的区别就是HDFS时一个高容错、可以部署在廉价的机器上。 HDFS对于读取数据具有高吞吐量,且适用于数据集大的场景。 普通的文件系统:Linux、Windows、MacOS,这些文件系统都有目录结构,存放的是文件或者文件夹,并且可以对外提供服务,例如创建、修改、删除、查看、移动等等。 既然HDF...

0
0
发表了博客
2014/07/02 19:22

HDFS API 对HDFS操作

hadoop HDFS 提供了丰富的API对HDFS文件系统进行操作。 hadoop 提供了一个org.apache.hadoop.fs.FileSystem 类,该类负责对HDFS进行操作 公共代码:在类中定义一下属性或常量         public static final  String HADOOP_PATH="hdfs://hadoop:9000";   public static final String DIR_PATH="/love";   public static final  String FILE_PATH="/love/you.txt";   static FileSystem fileSystem=null; ...

0
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于开发技能专区
2019/12/02 13:30

spark 的rdd 和 hdfs的广播 的联系和应用,有人了解吗?

spark 的rdd 和 hdfs的广播 的联系和应用,有人了解吗?

1
0
发表于AI & 大数据专区
2018/12/13 16:29

Apache Ignite 具体的场景有哪些,有分享吗?

1.如果数据量在1T-1000他之间 2.SQL 查询比较复杂,比如 5-10个表的join 3.插入更新 频率 1w/s (总和,比如1:1) 4.复杂查询频率不高,但是扫描数据量(1000~1亿W)左右,响应速度? 5.数据快速导出到HDFS 6.数据不丢失 假设全是结构化数据(mysql binlog同步) 以上很多场景,哪些比较合适的,有测试对比吗?

5
1
2018/11/30 09:06

基于hive建设数据仓库的问题?

想建设一个数据仓库,查阅了很多数仓建设方案,现在分层方案已经有了,具体物理上基于hive如何构建还是比较迷惑。主要疑问这几点: 1、在hive中建立多个库来分别代表不同的层吗? 2、hive中可以用多个数据库吗? 3、物理上每一层都是隔离的吗,在不同的机器上? 本着谋求当下最佳实践经验,不求最好,但求最适合,请有经验的大神给分享一下基于hive的建设思路。不胜感激。

1
0
2018/11/08 16:44

hive分区内部表分区删除问题

有一个内部表student,字段有name,sex,其中sex是分区字段,目前有两个分区,sex=1和sex=2.我在hdfs上hive内部表的默认目录中删除了sex=2的目录,然后执行select * from student;这会触发一个异常: Error:Error while compiling statement:FAILED:SemanticException [Error 10041]:No partition predicate found for Alias "student" table "student"(state=42000,code=10041). 我想知道在这种情况下,如何能让查询语句正常执行.谢谢各...

1
0
2018/09/21 08:02

hadoop启动后namenode挂掉报错,日志居然提示umilit -a??

centos7 +hadoop2.7.3+服务器1核2G内存 --------------------fen ge xian------------ 实验一直使用root用户进行。 namenode日志如下图:。。。。。 ulimit -a for user root core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 0 file size (blocks, -f) unlimited pending signals (-i) 7283 max locked memory ...

1
0
2018/06/06 10:51

针对hadoop中的数据如何打标签,实现思路?

需要针对 存储的数据根据规则打上标签、想的是 spark streaming 监控 hdfs 文件变动,看能不能获取到所需的数据,感觉不行啊。。求助!!!,是我思路有问题吗?

5
0
发表了问答
2014/12/10 16:05

调用hdfs的C接口hdfsConnect报段错误

1
0
发表了问答
2017/11/17 14:35

datanode变动本地block存储路径后出现以下问题

2017-11-16 17:31:44,693 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: Need to move 17.96 TB to make the cluster balanced. 2017-11-16 17:31:44,693 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: Decided to move 10 GB bytes from 10.129.198.32:10010 to 10.129.196.24:10010 2017-11-16 17:31:44,693 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: Decided to move 10 GB bytes from 10...

1
1
2017/08/27 00:25

用SparkSQL 能否实现对HDFS数据的修改?

HDFS不支持对数据的修改,能删除和追加,但是能否通过SparkSQL 实现对HDFS上数据的修改呢??

1
1
发表了问答
2017/06/07 10:40

求推荐开源任务调度系统

现在我们有个业务场景:hive表的统计分析任务,需要一个调度系统来进行协调,管理任务优先级,任务父子节点先后顺序,支持重跑等功能。

4
0
发表了问答
2014/11/07 18:00

hbase存储手机通话记录,使用什么作为rowkey?

想用hbase存储业务数据,但业务数据的主键都是按时间递增的值 数据量很大,如果采用数据的主键作为rowkey? 因为一个region只能由一个服务器管理,所以所有的更新都会集中在一台服务器上,这会导致系统产生读写热点,并由于写入数据过分集中而导致整个系统性能下降? 系统已经运行很久,业务数据已经产生,想把这些数据采用HBASE存储,目前是MYSQL存储 如何解决这个问题呢?

6
0
2017/04/12 21:29

hadoop namenode能承受多大的访问量???

我现在有一个hadoop集群,但是只有一个namenode,我想知道我的namenode能承受多大的访问量?namenode一宕机整个集群都玩完了。或者有没有什么方案可以实现负载均衡?我知道hadoop本身就有负载均衡,可以把block均匀的放在datanode上,但是namenode还是只有一个。 望请各位解答我的疑问。 谢谢大家

4
0
发表了问答
2017/03/30 15:59

Hadoop namenode无容灾备份的情况下,内存溢出后无法启动

问个Hadoop NameNode的相关问题,问题是这样的:我们的生产环境hadoop 2.5只启动了namenode,没启动secondnamenode和做HA,昨天因为master节点内存溢出,挂掉了,然后再次启动的时候就报了这个错误: 2017-03-29 08:07:10,392 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Encountered exception loading fsimage java.io.IOException: There appears to be a gap in the edit log. We expected txid 1, but g...

2
0
发表了问答
2017/03/23 22:02

为解决小文件的存储问题,HDFS上是否能够通过Federation方式解决?

感觉通过Federation方式能够解决小文件问题,将一个block size设置的小一点专门存储不用实时访问的小文件

1
0
发表了问答
2015/12/02 19:22

用Sqoop,hdfs导入都mysql时候执行MR时候报错了

sqoop export --connect jdbc:mysql://crxy2:3306/test --username root --password 19911130 --table info --export-dir sqoop_export Warning: /software/sqoop-1.4.6.alpha/../hbase does not exist! HBase imports will fail. Please set $HBASE_HOME to the root of your HBase installation. Warning: /software/sqoop-1.4.6.alpha/../hcatalog does not exist! HCatalog jobs will fail. Please set $HCAT_HOME to the r...

5
0
发表了问答
2016/10/25 21:33

CDH5.7.2环境跑比较大的任务时候,其他任务一直等待

CDH5.7.2环境跑比较大的任务时候,其他任务一直等待,小任务可以并行, 关键这个大任务,其实也不大也就10G的数据,我的配置8台128G内存的,CPU和内存还剩余好多,我觉得应该是配置的的问题,搜了好久,测试了好些参数配置都没有效果,所以才发帖子来问下的,谢谢大家了,请帮忙看看,我觉得肯定是这个任务占用了 分配的所有资源,导致其他任务只能等待。

8
1
发表了问答
2017/02/28 11:07

关于hdfs-site.xml配置的问题求解,希望能够看一下,谢谢。

为什么我在HDFS服务器端也就是HDFS集群上配置的hdfs-site.xml的dfs.blocksize的大小不起作用,而在HDFS客户端配置的起作用?那么这样子的话集群上的配置有什么意义?

4
0
发表了问答
2015/11/06 09:37

Hadoop启动失败

分布式安装Hadoop出错,配置有一台master,三台slave。 master上namenode 和resourcemanager启动错误。jdk、环境变量和ssh无密码登陆均已设置。日志如下: STARTUP_MSG: build = https://git-wip-us.apache.org/repos/asf/hadoop.git -r e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1; compiled by 'jenkins' on 2014-11-13T21:10Z STARTUP_MSG: java = 1.7.0_65 ***********************************************************...

4
0
2016/06/22 14:18

Spark读取HA模式HDFS Caused by: java.net.UnknownHostException: masters

Spark版本:1.6.1 Hadoop版本:2.6.2 HDFS模式为:HA(正常使用,没有任何问题) <property> <name>fs.defaultFS</name> <value>hdfs://masters</value> </property> <!--指定hdfs的nameservice为masters,需要和core-site.xml中的保持一致 --> <property> <name>dfs.nameservices</name> <value>masters</value> </property> 使用Spark读取HDFS文件,报错Caused by: java.net.UnknownHostException: masters val line ...

1
0
发表了问答
2015/04/02 10:24

求大神!!使用Cloudera安装Hadoop,数据块自动检测与复制非常慢,平均副本不够3份,怎么破

求技术大神、Hadoop大牛: 使用Cloudera 5.2 安装了 Hadoop 平台,共15个节点,在同个私网,千兆带宽,目前数据量约为80T左右,但最近使用 hdfs fsck / 检测数据块的完整情况时,发现副本的平均数量不够3份,只有2.3而已。每天使用 hdfs fsck / 指令查看,平均的副本数量会略有增加,但进展非常慢,到现在有一个月了,还是停留在2.3的阶段,每天的进展非常慢。但整个集群的检查又是“健康”的,目前主要是副本数不够,不知怎么破...

3
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
1 评论
72 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部