HDFS 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
HDFS 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
HDFS 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
HDFS 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
HDFS 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
开源组织 Apache
地区 不详
提 交 者 红薯
适用人群 未知
收录时间 2012-09-10

软件简介

HDFS

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是lucene的一部分。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (1)

加载中
http://www.oschina.net/p/hdfs 这个软件首页链接打不开了 #HDFS#
2015/11/04 09:42
回复
举报
更多评论
发表了资讯
2014/10/16 00:00

HDFS 进化,Hadoop 即将拥抱对象存储?

Hortonworks在博客中提出了一个全新的Hadoop对象存储环境——Ozone,能将HDFS从文件系统扩展成更加复杂的企业级存储层。 Hadoop社区的一些成员今日提议为Hadoop增加一个新的对象存储环境,这样一来Hadoop就能以与亚马逊S3、微软Azure以及OpenStack Swift等云存储服务一样的方式去存储数据。 Hadoop发行商Hortonworks本周...

7
32
发表了资讯
2013/04/14 00:00

6 个开源的大数据文件系统

大数据在今天吸引了大量关注,个人、企业和政府机构之间的互动创造了数据的海洋,通过有效识别、访问、筛选和分析其中部分数据能带来新的见解和益处。大数据需要大量的储存空间,先进的存储基础设施必不可少,需要能在多台服务器上伸缩自如的存储解决方案。有许多优秀的开源文件系统能用于深入分析大数据,其中包括: QF...

6
174
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/04/03 17:08

HDFS和Federation HDFS

由于性能评价,HDFS需要优化,在考虑Federation HDFS HDFS只有一个name space, 它使用全部的块。 而Federation HDFS 中有多个独立的namespace,每个命名空间使用一个block Pool。 Bolck Pool : 维护单个命名空间的所有block。 注意区分:Data node是一个物理概念,而block pool是一个重新将block划分的逻辑概念。 NameNo...

0
0
2020/04/13 09:50

HDFS(二)HDFS架构

NameNode(master) and DataNodes(slave) 一个HDFS集群包括一个NameNode和一些DataNode。NameNode管理了一个文件系统的命名空间,可以供客户端访问这些文件。DataNode负责数据的存储。 NameNode暴露出namespace,允许用户的数据存储在文件系统中。 一个文件会被切分成一个或者多个blocks,这些block会被存储在一系列DataN...

0
0
发表于软件架构专区
2020/05/14 00:32

HDFS

概念 Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(Commodity Hardware)上的分布式文件系统(Distributed File System)。 【操作系统中负责管理和存储文件信息的软件机构称为文件管理系统】 ...

0
0
发表了博客
2015/11/28 16:35

HDFS

HDFS(Hadoop Distributed File System),分布式文件系统

0
1
发表了博客
2018/04/10 16:14

[HDFS Manual] CH8 HDFS Snapshots

HDFS Snapshots HDFS Snapshots. 1 1. 概述... 1 1.1 Snapshottable目录... 1 1.2 快照路径... 1 2. 带快照的更新... 1 3. 快照操作... 1 3.1 管理操作... 1 3.2 用户操作... 1 1. 概述 HDFS快照是只读的,一个时间点文件系统的一个副本。快照可以是整个文件系统或者文件系统的子树。快照通常用来备份,保护用户错误和灾...

0
0
发表了博客
2018/09/04 19:54

hdfs-03-hdfs客户端操作

1, hdfs中两种连接方式 1), 网页 2), 客户端 文件的切块大小和存储的副本数量,都是由客户端决定! 所谓的由客户端决定,是通过配置参数来定的 hdfs的客户端会读以下两个参数,来决定切块大小、副本数量: 切块大小的参数: dfs.blocksize 副本数量的参数: dfs.replication <property> <name>dfs.blocksize</nam...

0
0
2020/04/13 09:53

HDFS(一) HDFS设计目标

介绍 HDFS(Hadoop Distributed File System)是一个分布式文件系统,可以运行在廉价的硬件上。与其他已有的分布式文件系统类似,但是最明显的区别就是HDFS时一个高容错、可以部署在廉价的机器上。 HDFS对于读取数据具有高吞吐量,且适用于数据集大的场景。 普通的文件系统:Linux、Windows、MacOS,这些文件系统都有目录...

0
0
发表了博客
2014/07/02 19:22

HDFS API 对HDFS操作

hdfs pai

0
1
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2019/12/02 13:30

spark 的rdd 和 hdfs的广播 的联系和应用,有人了解吗?

spark 的rdd 和 hdfs的广播 的联系和应用,有人了解吗?

1
0
发表于AI & 大数据专区
2018/12/13 16:29

Apache Ignite 具体的场景有哪些,有分享吗?

1.如果数据量在1T-1000他之间 2.SQL 查询比较复杂,比如 5-10个表的join 3.插入更新 频率 1w/s (总和,比如1:1) 4.复杂查询频率不高,但是扫描数据量(1000~1亿W)左右,响应速度? 5.数据快速导出到HDFS 6.数据不丢失 假设全是结构化数据(mysql binlog同步) 以上很多场景,哪些比较合适的,有测试对比吗?...

5
1
2018/11/30 09:06

基于hive建设数据仓库的问题?

想建设一个数据仓库,查阅了很多数仓建设方案,现在分层方案已经有了,具体物理上基于hive如何构建还是比较迷惑。主要疑问这几点: 1、在hive中建立多个库来分别代表不同的层吗? 2、hive中可以用多个数据库吗? 3、物理上每一层都是隔离的吗,在不同的机器上? 本着谋求当下最佳实践经验,不求最好,但求最适合,请有经...

1
0
2018/11/08 16:44

hive分区内部表分区删除问题

有一个内部表student,字段有name,sex,其中sex是分区字段,目前有两个分区,sex=1和sex=2.我在hdfs上hive内部表的默认目录中删除了sex=2的目录,然后执行select * from student;这会触发一个异常: Error:Error while compiling statement:FAILED:SemanticException [Error 10041]:No partition predicate found for Alias "...

1
0
发表于服务端专区
2018/09/21 08:02

hadoop启动后namenode挂掉报错,日志居然提示umilit -a??

centos7 +hadoop2.7.3+服务器1核2G内存 --------------------fen ge xian------------ 实验一直使用root用户进行。 namenode日志如下图:。。。。。 ulimit -a for user root core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited scheduling priority (-e) 0 file size...

1
0
2018/06/06 10:51

针对hadoop中的数据如何打标签,实现思路?

需要针对 存储的数据根据规则打上标签、想的是 spark streaming 监控 hdfs 文件变动,看能不能获取到所需的数据,感觉不行啊。。求助!!!,是我思路有问题吗?

5
0
发表了问答
2014/12/10 16:05

调用hdfs的C接口hdfsConnect报段错误

1
0
发表了问答
2017/11/17 14:35

datanode变动本地block存储路径后出现以下问题

2017-11-16 17:31:44,693 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: Need to move 17.96 TB to make the cluster balanced. 2017-11-16 17:31:44,693 INFO org.apache.hadoop.hdfs.server.balancer.Balancer: Decided to move 10 GB bytes from 10.129.198.32:10010 to 10.129.196.24:10010 2017-11-16 17...

1
1
2017/08/27 00:25

用SparkSQL 能否实现对HDFS数据的修改?

HDFS不支持对数据的修改,能删除和追加,但是能否通过SparkSQL 实现对HDFS上数据的修改呢??

1
1
发表了问答
2017/06/07 10:40

求推荐开源任务调度系统

现在我们有个业务场景:hive表的统计分析任务,需要一个调度系统来进行协调,管理任务优先级,任务父子节点先后顺序,支持重跑等功能。

4
0
发表了问答
2014/11/07 18:00

hbase存储手机通话记录,使用什么作为rowkey?

想用hbase存储业务数据,但业务数据的主键都是按时间递增的值 数据量很大,如果采用数据的主键作为rowkey? 因为一个region只能由一个服务器管理,所以所有的更新都会集中在一台服务器上,这会导致系统产生读写热点,并由于写入数据过分集中而导致整个系统性能下降? 系统已经运行很久,业务数据已经产生,想把这些数据采...

6
0
2017/04/12 21:29

hadoop namenode能承受多大的访问量???

我现在有一个hadoop集群,但是只有一个namenode,我想知道我的namenode能承受多大的访问量?namenode一宕机整个集群都玩完了。或者有没有什么方案可以实现负载均衡?我知道hadoop本身就有负载均衡,可以把block均匀的放在datanode上,但是namenode还是只有一个。 望请各位解答我的疑问。 谢谢大家...

4
0
发表了问答
2017/03/30 15:59

Hadoop namenode无容灾备份的情况下,内存溢出后无法启动

问个Hadoop NameNode的相关问题,问题是这样的:我们的生产环境hadoop 2.5只启动了namenode,没启动secondnamenode和做HA,昨天因为master节点内存溢出,挂掉了,然后再次启动的时候就报了这个错误: 2017-03-29 08:07:10,392 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Encountered exception loadin...

2
0
发表了问答
2017/03/23 22:02

为解决小文件的存储问题,HDFS上是否能够通过Federation方式解决?

感觉通过Federation方式能够解决小文件问题,将一个block size设置的小一点专门存储不用实时访问的小文件

1
0
发表了问答
2015/12/02 19:22

用Sqoop,hdfs导入都mysql时候执行MR时候报错了

sqoop export --connect jdbc:mysql://crxy2:3306/test --username root --password 19911130 --table info --export-dir sqoop_export Warning: /software/sqoop-1.4.6.alpha/../hbase does not exist! HBase imports will fail. Please set $HBASE_HOME to the root of your HBase installation. Warning: /software/s...

5
0
发表了问答
2016/10/25 21:33

CDH5.7.2环境跑比较大的任务时候,其他任务一直等待

CDH5.7.2环境跑比较大的任务时候,其他任务一直等待,小任务可以并行, 关键这个大任务,其实也不大也就10G的数据,我的配置8台128G内存的,CPU和内存还剩余好多,我觉得应该是配置的的问题,搜了好久,测试了好些参数配置都没有效果,所以才发帖子来问下的,谢谢大家了,请帮忙看看,我觉得肯定是这个任务占用了 分配的所...

8
1
发表了问答
2017/02/28 11:07

关于hdfs-site.xml配置的问题求解,希望能够看一下,谢谢。

为什么我在HDFS服务器端也就是HDFS集群上配置的hdfs-site.xml的dfs.blocksize的大小不起作用,而在HDFS客户端配置的起作用?那么这样子的话集群上的配置有什么意义?

4
0
发表了问答
2015/11/06 09:37

Hadoop启动失败

分布式安装Hadoop出错,配置有一台master,三台slave。 master上namenode 和resourcemanager启动错误。jdk、环境变量和ssh无密码登陆均已设置。日志如下: STARTUP_MSG: build = https://git-wip-us.apache.org/repos/asf/hadoop.git -r e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1; compiled by 'jenkins' on 2014-11-...

4
0
2016/06/22 14:18

Spark读取HA模式HDFS Caused by: java.net.UnknownHostException: masters

Spark版本:1.6.1 Hadoop版本:2.6.2 HDFS模式为:HA(正常使用,没有任何问题) <property> <name>fs.defaultFS</name> <value>hdfs://masters</value> </property> <!--指定hdfs的nameservice为masters,需要和core-site.xml中的保持一致 --> <property> <name>dfs.nameservices</name> <value>masters</value...

1
0
发表了问答
2015/04/02 10:24

求大神!!使用Cloudera安装Hadoop,数据块自动检测与复制非常慢,平均副本不够3份,怎么破

求技术大神、Hadoop大牛: 使用Cloudera 5.2 安装了 Hadoop 平台,共15个节点,在同个私网,千兆带宽,目前数据量约为80T左右,但最近使用 hdfs fsck / 检测数据块的完整情况时,发现副本的平均数量不够3份,只有2.3而已。每天使用 hdfs fsck / 指令查看,平均的副本数量会略有增加,但进展非常慢,到现在有一个月了,还...

3
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
1 评论
72 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部