hbase rowkey 问题

紫川录 发布于 2016/06/16 22:13
阅读 295
收藏 0
一份全量 用户数据 格式 简单描述为

userid1_k1_20160616 -> value
userid1_k2_20160616 -> value
userid1_k3_20160616 -> value

userid1 下有很多中不同类型数据 k1 k2 k3
现在这份数据 存入到了 hbase 中,有一个问题是,假设某一天的数据出了问题,需要重新跑一份
但是新的数据,并不一定是 k1 k2 k3 都有数据 可能 只有 k1 k2 有数据,k3没有数据
这样的话,通过bulkload 将数据载入,查询的时候 查 userid1 这样 k3 也会被查出来,一个个删不太现实


没想到好的设计方法,各位有遇到过相关场景可以指导下。

加载中
0
紫川录
紫川录

          删除

0
xfengfeng
xfengfeng

1. value值不多的话,那就把所有userid的值全部放到一个cell里面,然后更新的时候就覆盖了原始值。 2.如果不用bulkload导入的话,可以考虑采用协处理器的方式处理删除操作。 3. 如果数据不删除没关系的话,读取的时候,根据时间戳过滤就好。

返回顶部
顶部