4
回答
百万行数据如何进行稽核
华为云实践训练营,热门技术免费实践!>>>   

大家好,我这么在处理数据时遇到一个问题:

有一张表,每天会产生800万行日志,我现在将这张表每半小时读取一次,将日志表中缺少的字段补全后存入另外一张表,现在存在的问题是 日志中的数据有丢失的情况

分析后发现丢失数据的原因有如下几个:

    1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。

    2.传输过程中采用udp协议,在传输过程中丢失。

请问,这种情况下,大数据如何进行数据稽核?

之前还未接触过数据仓库,不知道上面说的这种情况是否属于ETL的数据清洗、加载过程?能否通过ETL工具完成?

大家都来发表发表意见,oracle有什么好的解决办法,hbase有什么号的办法?


举报
text_android
发帖于4年前 4回/427阅
顶部