今天翻了下大数据的说明。哈。。。又要喷hadoop了。。

中山野鬼 发布于 2013/08/28 05:59
阅读 3K+
收藏 0

大数据英语Big data[1][2]),或称巨量数据海量数据大资料,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。

以上是wiki的。

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

以上是百度百科的。。

哈不知道谁抄谁的。但都共同表明了一个观点(废话,这样作弊的抄能不是一个观点吗?)

主流软件工具,无法完成的数据的获取,数据的处理。注意有这两大类工作哦。哈。

那么大数据处理技术的研究方向和解决方案分两种。

1、我想办法把计算系统做大,数据再多也不怕。典型的hadoop的思想。哈。

2、我想办法搞信息共享,将别人的处理结果汇总过来。典型的云计算思想。哈。

hadoop百度百科如下描述,wiki也差不多,不重复抄了, 反正他们相互抄嘛。

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储

定义很清楚,那么hadoop如果是处理大数据的,那么我也给个定义,它能处理,大量数据。但对多样性的数据类型的多样性的数据处理无法完成。

为什么我这么说,我们有很多信息化系统。有的专门处理这个,有的专门处理哪个,算法各异,目标各异。ok。你就是有了可分布式计算的大规模计算集群,然后呢?你再把那些各个专用的信息化处理程序翻一边,重写一边?或者说直接拿来运行,我是个类操作系统平台。

好吧,每个基于hadoop的信息化系统,继续从头到尾的算一边。假设每个内部信息化处理的程序都没问题。你终于牛b了,我为你鼓掌。但弱弱的反问一句,不同类型的数据,都从哪来呢?

你又牛b了,我可以网络爬虫。。。。。。说句不好听的,网络上的数据合法情况下你爬到有多少质量?对比一下,就不谈政府系统,谈谈可商业的数据。

假设城市商业中心区域,几个大商场或百货都聚一块,现在不是精准营销嘛?知道你是谁,这个有点隐私外露了,不好,但知道今天,这周,这个月,一共有多少不同消费层次的人,消费偏好的人,还是可以的。手机是可以定位的,具体个人信息是可以过滤的。在哪消费过什么消费多少,是可以大概给个数的。这些信息,你爬的到吗?

这实际上是个典型的大数据应用。但基础是“信息共享”。也是云计算的思路。我就想不通了,如果移动说我用 hadoop,注定是自己的一个系统,银联说我用hadoop,注定,还是自己的一个系统,各个大商场还说我用hadoop,于是又是个自己的系统。反正自己的系统计算规模大了,不怕。我的数据,要到处抓,我处理的结果要保密。最终呢?哈。数据哪来?

简单总结,大数据处理技术的研究,重点在于信息共享,和信息孤岛的问题处理上。这两个处理好了,政府才能有效进行信息共享方面的管理,并推动信息的实际共享,实现各个信息化系统的大数据处理能力。

hadoop,充其量一个分布式并发计算平台而已。和大量数据的计算有很大关系,但实际上专业的大量数据的计算系统多了去了,不说unix了,基于linux的集群太多商业案例了,纯native的系统,性能,可靠性哪个不比你hadoop强?但这些,和真正的大数据,有啥关系?哈。喷我的可以说说哦。另外喷我没干活的写代码的喷喷,你先看懂我是在讨论跨系统组织和大系统组织设计原理后在喷。

加载中
1
x
xeno

著名喷子来了。
从来不说干货,满嘴喷粪的来了。
几句话就不离生殖器,难道是自小有严重的自卑感?
在这匿名的网络世界,以为注册个帐号就可以砍掉过去的自卑,说几句毫无质量的口水话,附带一堆生殖器就可以成为人上人?

入了颗老鼠屎,真心烦。别人讨论好好的,何必出来找存在感,自己又不懂,又怕被别人说不懂,何必嘛,哪凉快哪呆着去。

0
乌龟壳
乌龟壳

tcp/ip协议栈是大数据处理的典范,在分布在全球的数十亿的节点上进行稳定地分布式处理,无论是小型机、中型机、大型机,乃至嵌入式系统,都有它的节点存在。这些节点之间通过局域网或者互联网进行高效地通信。

它所处理的数据量是没有上限的概念的,开机多久处理多久。其稳定性和运行效率都堪称楷模。虽然我们一般认为tcp/ip这种大数据框架,具有不太高的可靠性和一致性,但经过了更高层次的补充,oracle rac可以很好地基于它进行严谨的OLTP服务。

卖萌一下。

0
猎户座
猎户座
能举几个比hadoop操作简单,容易学习,性能又好的,开源分布式的分布式计算框架嘛?这样喷起来更爽,就像我长喷别人。Android都4.3了,丫的还给我说2.2的问题。。IE都11了。整天喷啥IE6。。。IE6的用户需要体验嘛??
0
还是学习吧
还是学习吧
都没弄明白分布式的作用,哎。
0
拉风的道长
拉风的道长

1。把系统做大,完全是提高计算能力的。这是处理大量数据的计算基础。
2.信息共享,是大数据的来源方式之一。大数据的来源也可以通过企业合作等方,再加上1的大系统,OK。
3.只用单纯的数据共享,那么就有点云计算的味道了。

我的初步理解。请轻喷。

0
纠结名字
请把你的精力放在C上,好好的写书,一个不值一提的hadoop,你到底要研究到什么时候?
0
逝水fox
逝水fox

感觉与其说是喷Hadoop,还不如说是喷天朝搞大数据的公司。

Hadoop这东西官方的定义就只是一个分布式计算框架,以前看的书上说他只是MapReduce的Java实现,Google当初搞这个也只是为了自己的网页排序而已,数据的来源不是他能解决的,作为工具压根就不能把他看太神。想起在看Hadoop的东西之前,曾经还有人告诉我会用这东西就是会云计算。

数据的问题,Hadoop本身是用FileSystem实现来支持不同的文件系统的,如果自己不写程序录入数据到文件系统的话,也有sqoop这个可以在关系数据库和HDFS之间做数据转移,但终究是需要自己去做的。

0
吐槽的达达仔
吐槽的达达仔

Hadoop是把很重的牛刀,但是在杀牛的时候,不能用小刀啊~~

Hadoop目前最大的用途的处理海量的日志文件,还有美帝的创业公司,用来做视频流数据的处理。

0
p
polaris_chen

"hadoop,充其量一个分布式并发计算平台而已。"

那每个工具都有优缺点嘛,java有缺点,C有适用范围,javascrip也不是万能。

难道有缺点,有缺陷就不应该出现?去哪里找完美的东西。

再说,你举的例子有点问题,现在用hadoop去处理大数据的案例基本都是基于企业本身的数据,比如一些教育视频企业用hadoop做转码,Google本身用这东西也是对自己的搜索数据作处理(上面有哥们说了),你要说数据哪来?那没数据你处理毛啊?这本身没什么关系吧。

当然了,你说有“更好”的解决方案,那也不妨碍hadoop的出现。

好比,负载均衡有开源的软件实现,也有上十万上百万的硬件实现。

最喜欢野哥开喷了!!!

0
EugeneQiu
EugeneQiu

前段时间,整天听到什么大数据大数据大数据大数据大数据之类的,企业间没有点大数据意识都好像被社会淘汰似的,实在是各种无语,神马事都大数据,而事实上用到这些大数据的企业又有几个,我只能呵呵了。

又例如,weibo,你看数据够大吧,那现在在搞什么玩意。只能看着朋友圈眼馋。

返回顶部
顶部