对爬虫爬取到的数据管理

乌龟壳 发布于 2016/12/27 17:55
阅读 513
收藏 0

大家在管理爬取到数据的时候,一般对异常数据是怎么进行防御的?

比如对一个网站的商品爬取下来后,每天都自动更新最新的信息,但是如果目标网站大批量返回错误数据,这样一下子就把之前的正确数据洗掉了。而且这些错误数据比如说价格,原来是20块,一下子返回200块,数据类型一样,但是值的意义不同了。

严格来说,这不是技术问题,所以请不要简单给个建议说用xx技术之类的。

以下是问题补充:

@乌龟壳:这不是技术问题,不是用干什么语言什么框架的问题 (2016/12/27 19:09)
加载中
0
阿莫斯
阿莫斯
感觉你可以建立一个数据校验模块,在抓取完这些数据后通过数据校验模块 检查 数据的变动值,如果超过你设定的阈值 ,那么可以认为刚爬取的数据是异常的,则不更新原有数据
乌龟壳
乌龟壳
还是要花功夫建立一系列标准规范数据。比如供应商等信息不能乱来,一定要从系统里建立的供应商信息里匹配,如果不匹配则转到异常状态人工处理。
0
百世经纶之傲笑红尘
百世经纶之傲笑红尘
没有一款爬虫是无敌的,但写爬虫用的Python却可能是无敌的
0
大賢者
大賢者
爬虫 很简单,数据查询管理分类 比较难
返回顶部
顶部