17
回答
关于hadoop的一点看法 - 两个凡是

传统RDMBS不适合流式数据的处理

现代的流式数据处理早已到准实时的水平了

所有的这类数据处理, hadoop无疑是最落后的, 时差过大

hadoop的价值仅限于 分布式文件的流式读取, 没有任何业务逻辑处理能力

只剩下一个作业调度

实际上,, haddoop和大数据没有什么关系, 只是一个文件系统和作业调度

拿hadoop说事, 无外乎一些懒汉, 投机取巧

hadoop容易获得罢了

举报
宏哥
发帖于2年前 17回/1K+阅
共有17个回帖 最后回答: 2年前

于是回归到PostgreSql

你直接说hadoop不如PG不就行了,还打那么多字

你这一秒钟几十万上下的,打这么多字,怎么也损失了好几个亿了

--- 共有 2 条评论 ---
小宏的爹回复 @快速开发师 : 你的意思是说我儿子只配跟门外汉交流?放屁,我儿子是专家。 2年前 回复
快速开发师对于我这样一个门外汉来说,他这样说我更容易理解,未尝不可 2年前 回复

楼主对hadoop的了解还停留在1版本上。现在2版本是YARN构架,是一个资源分配,调度系统。计算模型也不限于map-reduce,正是因为这个开放性的特点,更多的计算模式被引入了进来,玩法也更多了,离线(map-reduce),准实时(hive),实时(spark)都有对应产品,而且也得到了业界的认可。所以现在提到hadoop,并不是分布式文件的流读取,离线map-reduce。而是整个hadoop生态圈。


你先了解一下hadoop和spark吧,并不是你说的那么简单。绝大部分情况,大数据的实时性都不是太高,不然你能想到每秒几个G的数据,或者一下就能分析出用户的某种行为?

引用来自“BoXuan”的评论

你先了解一下hadoop和spark吧,并不是你说的那么简单。绝大部分情况,大数据的实时性都不是太高,不然你能想到每秒几个G的数据,或者一下就能分析出用户的某种行为?
去了解一下streaming 吧 主流的公司 都不用Hadoop 包括阿里
--- 共有 3 条评论 ---
宏哥回复 @BoXuan : 可以滚得远点了 2年前 回复
银杏果果还有你说的streaming这只是一种数据传输方式,底层实现应该也就是socket tcp实现,难道有什么其它神奇之处? 2年前 回复
银杏果果阿里首先用的hadoop,后面才用的spark,目前开源界处理大数据的基本就这两款,spark作为后起之秀,肯定在某些方面优于hadoop的,不过你说的hadoop没有主流公司用,我就不敢苟同了,多查查资料,不要可能就是你自己说的“懒人”才好 2年前 回复

回复 @BoXuan :  你用菊花说话的吗? 

https://www.aliyun.com/product/odps

你们这些嘴里hadoop的,没有一个不是乱七八糟

--- 共有 2 条评论 ---
宏哥回复 @BoXuan : 你可以滚了,我已经给出阿里的解决方案了。 2年前 回复
银杏果果我看过一个阿里技术大佬有关spark的文章,他们是hadoop和spark都用的。回复你这个的重点是要说明你能不要说脏话吗?人品能不能上升一点? 2年前 回复
哈,hadoop都玩出生态了。不过确实可以。但hadoop的生态和大数据没毛线关系吧。喜欢聊大数据的,我倒是很愿意探讨一下。不过希望确实是在讨论大数据的实际问题。

不懂 hadoop 啊,hadoop 不是用来存储的,而是计算的。

目前一个最简单的场景,图像识别。给你一副图片,你怎么让程序知道里边有一只猫?那就是把这张图片和100亿张图片比对,如果接近猫的比率比较大,就可以说这张图片有一只猫。

问题来了,100亿张图片的二进制数据,那可是很大的,而且要一个一个比对。你用什么数据库+一个单线程算法可以完成?

这就是分布式存储和分析的目的。


至于 Hadoop 和大数据分析,可以这么介绍。Hadoop 由多个工具构建而成。一个是 HDFS 进行分布式存储(或者是叫中间存储),用来存储要分析的数据。一个是 YARN,进行分布式调度。一个是 Spark Storm 等工具,进行编程算法的分布式执行,机器学习等在这一层进行编写。

--- 共有 4 条评论 ---
AutoPlus回复 @554330833a : 我没有这样的需要哦,所以,没有考虑过这些 2年前 回复
554330833a@AutoPlus 回复@AutoPlus : 就是不让客户轻易反编译看到啊,javaweb需要混淆的吗? 2年前 回复
AutoPlus回复 @554330833a : 混淆是什么意思 2年前 回复
554330833a你们的java web交付的时候会混淆吗?有的话用什么混淆? 2年前 回复
顶部