关系型数据库迁移至hbase

packice 发布于 2015/06/23 16:31
阅读 996
收藏 0
由于性能需要,计划将公司的关系型数据库(sqlserver)内的数据,同步到hbase中,请问:
1.工具除了sqoop,还有其他推荐么?
2.数据需要先进hadoop,再进hbase么?还是直接用hbase的api?具体哪个?
3.关系型数据库存在大量关联关系,迁移的时候,是选择将数据在源端(或者etl工具)先做一下组织,比如关联拼接,然后倒入hbase(hadoop?),还是同构的导入hbase(hadoop?),然后在hbse里合并成宽表?简单举例,A表3列,1工号(主键),2姓名,3家庭地址,B表2列,1工号(主键),2职务代码,C表2列,1职务代码(主键,用于同B表关联),2职务名称。方案1,利用etl工具,将ab表合并,再关联c表,导出结构基本成型的数据文件,放到hadoop目录下,然后load进hbase。方案2.直接利用sqoop,结构不变的将ABC三表分别导入hadoop,然后在hadoop(hbase)处理成一个大表。这两个方案有啥利弊?有啥企业的成功案例可以参考?


请大神们指导
加载中
0
stark_summer
stark_summer
推荐方案1,理由:处理大批量数据,使用bulk load效率高,对集群服务器压力小,还有load失败可以重试
p
packice
感谢回答,问下:sqoopload失败了就不可以重试了么?无法监控?另外,我的理解上集群就是为了承担高压力,为什么要避免给集群压力?
0
脸大的都是胖纸
脸大的都是胖纸
你数据量有多大呢?集群有多少台?
p
packice
源有10T以上,预计生成的hbase宽表超过2亿行,集群规模未定,不会超过100
0
0
vb2005xu
vb2005xu
使用淘宝开源的datax
p
packice
datax支持的hadoop版本比较低吧
返回顶部
顶部