数据量不大的数据仓库方案有必要用hive吗?

malie0 发布于 04/20 15:07
阅读 833
收藏 0

开源之夏第三届火热来袭,高校学生参与赢万元奖金!>>>

不到百万级的数据量,客户要做数据仓库,感觉用hive没有起到大数据应有的作用,是不是有其他的替代方案?

加载中
0
ArchitectureMaster
ArchitectureMaster

1.大数据并不是数据量大就叫大数据,数据量大小与用数据仓库没有半毛钱关系。

2大数据和普通数据的区别在于能否描述清楚一件事,即使用数据完整的描述一个事物的这些数据就被称为大数据,大数据的大是数据的维度的大还有数据深度的深这两个方面。如操作日志如果无法对某一个事物描述清楚就算有几十亿条也只是流水数据,如果能是行车记录的日志,能描述清楚车主在出事前后5分钟的所有操作哪怕只有几万条,这也叫大数据!

3.题主使用数据仓库做数据挖掘或分析要考虑的是你存储的这些数据是否能描述清楚你的业务即给业务用数据画像,如果不能就没有必要使用数据仓库。注意数据仓库并非是数据库的数据多!!!

4.至于hive是否使用和楼上所说的复杂度有点关系,即hive可以及大的降低数据操作的难度,hive说白了就是可以使用一般人都了解的sql的方式操作复杂的三维、多维度的数据表。

5.要知道如果你用sql哪怕是操作三张表多对多的关系都已经是非常复杂了(注意不是join表而是crossjoin穿插联结)。在数据仓库建模则类似于维度表则会相当普通,即比rdbms这样只有2维3维关系更复杂的4维5维乃至N维关系则太普遍。如果使用平面的二维关系形数据库来存储查询起来百度吃力,才会有了数据仓库和工具hive,hive绝对不是简单的把数据仓库转为sql操作的工具,而是一整套的数据仓库查询工具,利用简单的sql语法还有自带的非标准sql但使用sql语法来转换(普通sql数据库执行不了)的简单语言来操作非常复杂的数据。所以如果题主觉得需求是需要完整给行为用数据画像则无论数据量的大小都要使用数据仓库加hive。否则就算你一天10亿条数据只是记录的话就没有必要使用数据仓库而是使用一个分布式的数据库pg+citus即可非常完美!

0
魔力猫
魔力猫

从你的说法来看,目前 hive 已经是第一技术选项,但你觉得大炮打蚊子了,于是想找个小一点的。

我觉得你这个考虑角度不对。你应该考虑的是,本项目使用hive的成本投入是多少,对于你们的收益来说,是否合算,而不是什么没有起到大数据应有的作用。成本合算,就用;不合算了,再说是否换别的方案。

比如说你们已经有了一个Hive做的现成的数据仓库,拿过来改改就能给这个客户用,钱多活少,那为什么不直接用呢?反过来,如果部署成本很高,客户又不肯花钱,那这个产品从技术上再适合客户,也没意义。你们不可能搭钱替人家白干不是?!

 

m
malie0
其实目前并没有现成的解决方案,hive也只是候选方案,需要专门去做开发,如果有其他方案至少可以比较
0
小222
小222

有必要,杀鸡必用牛dao

0
freekevin
freekevin

答案就在题目中

0
梅开源
梅开源

不到百万,用sqlite狠赚丫的一笔

jingshishengxu
jingshishengxu
百万级数据量 sqlite慢的要死
0
各种打杂
各种打杂

百万级数据量 是不是随便一个数据库就可以了的么?? 😂

0
火眼金睛容嬷嬷
火眼金睛容嬷嬷

只是说百万级这单一指标不够描述数据库复杂度吧。单表百万sqlite肯定可以搞定,但被拆得稀碎,一个查询join三个表就死翘翘了。另外,要不要数据仓库现在看起来不是技术需求分析的结论,而是用户要求,这个没什么商量余地吧。

0
我从远处聆听你
我从远处聆听你

不到百万,其实也不叫大数据

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部
返回顶部
顶部