问点前沿技术问题。 网络传输速度和硬盘传输速度比较。

泡不烂的凉粉 发布于 2012/07/23 16:59
阅读 1K+
收藏 0

现在 很多地方都讨论大数据处理,数据分析等等着方面的问题。

心中有一个疑问。 假如多个设备在物理环境比较近,可以理解成服务器在一个机房。

那么当前技术水平,服务器硬盘顺序读取速度与通过网络读取数据速度有无优势。

可以假象成,网络数据直接光线传输。 硬盘传输有阵列。  谁更有优势。

如果是常见千兆网络,性能不错网卡。 与服务器硬盘比较结果会如何。

顺序读取。 前提是顺序读取。不是随机存取。也不是内存,也不是ssd

加载中
0
十一文
十一文

硬盘读写速度现在怎么都达不到千兆, ssd读也达不到。(特殊设备除外,貌似看到新闻说有实验室的产品读写速度可以过G)

不过可以采取,写入缓冲的方式,数据先保存在内存,再写入到硬盘,不过缺点怕掉电。

读的话,采取分布式的读,可以达到很高的吞吐量。

网络传输的话,问题在于怎么保证传输稳定和不出错

Cremyos
Cremyos
这对内存的要求很高啊,而且还不能耽误其他程序对内存的使用,这个内存我觉得应该很大吧
0
泡不烂的凉粉
泡不烂的凉粉

引用来自“十一文”的答案

硬盘读写速度现在怎么都达不到千兆, ssd读也达不到。(特殊设备除外,貌似看到新闻说有实验室的产品读写速度可以过G)

不过可以采取,写入缓冲的方式,数据先保存在内存,再写入到硬盘,不过缺点怕掉电。

读的话,采取分布式的读,可以达到很高的吞吐量。

网络传输的话,问题在于怎么保证传输稳定和不出错

这么说来, 在顺序存取方面 , 网络传输速度相对与硬盘 io 速度还是有优势的,不知道这么理解是否成立。

因为机放内部设备间千兆网卡很常见,传输速度相当快,并且成本相对硬盘少许多。

0
泡不烂的凉粉
泡不烂的凉粉
看贴不跟帖,帖子要沉了。需要顶。 无论对错。发表点个人观点也好。不能让它沉。
0
johnzhang68
johnzhang68
"千兆网卡很常见", 這裡 “ 千兆” 是指1000M bits, 大概也就100M Bytes。 Intel SSD 520 Sequential Read 已经可高达550M Bytes per second, 顺序写可高达275M Bytes per second.
IdleMan
IdleMan
回复 @十一文 : 现在的HBA卡4G的已经很通用了,好像12G的都出来了,一般服务器都有好几个接口的,再来个负载均很啥的,网络传输不是问题
十一文
十一文
汗 查了哈 还真是这样。擦我out了!
0
泡不烂的凉粉
泡不烂的凉粉
网络允许帮定双网卡。所以,网络传输可以更快点,相对来说,速度提升技术性难度小点。 磁盘阵列是否回更好? 光线通讯用的网卡是否会更快点。
0
泡不烂的凉粉
泡不烂的凉粉

顺便提点应用。 是这样的, 排序在信息处理方面很常见。 无论用什么算法。都是在一个相对平等的环境中。 现实中应用,比如1g内容的排序和1T内容排序难点还是数据交换上。 1g可以全部加载进内存玩。1T就要涉及到信息交换了。如果一个系统界面,把存储信息部分扩展到近乎无限空间大小。 就好比内存数据交换比磁盘数据交换要快许多。

比如1T大小数据做排序。 只要一个设备顺序读取数据,按照开头部分把数据通过网络分发给N 台机器,处理除了开头部分数据,后面的数据排序。这样就可以N多设备协同工作。效率达到 1+1 > 2 的目的。 否则如果是1台设备需要 加载数据,排序, 临时存储, 加载另外数据,处理,临时存储,加载.... 汇总分结果,获得总结果。 1台设备这么处理,做了很多重复劳动。如果网络够快 多台设备 避免了重复加载。 达到 1+1>2

泡不烂的凉粉
泡不烂的凉粉
回复 @十一文 : 差不多的意思。
十一文
十一文
hadoop是把数据分成分成多个部分,每部分各自处理结果,然后汇总处理。即把你的1t的数据分成n份,然后每份分发给不同机器处理。然后汇总结果。不知道适用你的场景不?
十一文
十一文
貌似这中数据分析,现在流行用hadoop。楼主可以调研哈
泡不烂的凉粉
泡不烂的凉粉
这么说不好理解。形象一点说一下:假设有1000个数据样本,每个样本里有1T条数据内容。 一知每个样本内数据条目重复率为0.001%.目的,找出这1000个样本内,每个样本中重复的样本。并统计所有样本中重复的次数。 这个如果算复杂运算,不如说是大数据处理。 假设 每个设备 一次能加载1G条数据。
0
IdleMan
IdleMan
硬盘技术感觉好多年都在原地踏步没有质的飞跃啊
智商已暴露
智商已暴露
@johnzhang68 毕竟转速有影响
johnzhang68
johnzhang68
磁性硬盘在容量方面还是有明显的飞跃。速度方面提高得慢一些。
0
泡不烂的凉粉
泡不烂的凉粉
或许未来,存储虚拟化是条路子。  数据处理和数据交互关系密切。 以数据处理为目的,建立多系统群集方式在处理上或许会比高计算系统群集更有优势。
0
泡不烂的凉粉
泡不烂的凉粉
又没落了。顶起
逝水fox
逝水fox
没有试过,关注一下
0
十一文
十一文
再看了哈貌似你真的很需要hadoop
返回顶部
顶部