百万行数据如何进行稽核

text_android 发布于 2014/04/22 18:26
阅读 567
收藏 0

大家好,我这么在处理数据时遇到一个问题:

有一张表,每天会产生800万行日志,我现在将这张表每半小时读取一次,将日志表中缺少的字段补全后存入另外一张表,现在存在的问题是 日志中的数据有丢失的情况

分析后发现丢失数据的原因有如下几个:

    1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。

    2.传输过程中采用udp协议,在传输过程中丢失。

请问,这种情况下,大数据如何进行数据稽核?

之前还未接触过数据仓库,不知道上面说的这种情况是否属于ETL的数据清洗、加载过程?能否通过ETL工具完成?

大家都来发表发表意见,oracle有什么好的解决办法,hbase有什么号的办法?


加载中
0
ipenglei
ipenglei

不清楚你的需求。。。

试试队列。。。

哈哈 也不知道你能看明白不

0
jolphin
jolphin

1.采集过程中数据量太大,读取oracle中数据时,报错快照过久,导致数据读取不完就丢失了。
批量提交, 使用直接路径/*+ append */插入, 如果数据不是很重要的话,可以把表设置为nologging

2.传输过程中采用udp协议,在传输过程中丢失。
换成tcp协议

0
NealFeng
NealFeng

1、什么是“报错快照过久”?

2、udp的上层协议没有保证数据完整性的机制吗?

0
jobell
jobell

http://www.oschina.net/p/apache+flume 然后做日志分析

返回顶部
顶部