有什么好的方法可以防止网络爬虫进行数据抓取

AzureQian 发布于 2014/06/26 20:09
阅读 6K+
收藏 2

我先简单说一下,网站使用的是SpringMVC+Tomcat的框架,具有搜索功能,基本就是依靠关键词使用ajax进行post请求,这样爬虫可以通过字典用httpclient等工具抓取数据。

我现在想防止数据被爬取,初步的想法是根据IP的访问次数来过滤,我不知道这方面有没有好的【框架】或者是【服务器软件】或者是【模块】什么的可以自动实现IP限制的功能,还请各位推荐推荐。

或者还有一些其他更好的数据防爬方式,也请告知下。


万分感谢!

加载中
0
方棱
方棱

方法多种多样,但原则就一个:破解成本大于信息本身的价值时,就没人会破解了。

比如,如果你的数据本身没什么价值,那就规定上午只允许请求接口A,下午只允许请求接口B,就够用了。

0
___Null
___Null

单位时间内请求次数超过某个阈值就让输入验证码,百度谷歌都有类似的机制,可以极大降低抓取的速度,然后再用map 搞个黑名单存起来   哈哈

然后json返回的数据经常变一变格式,或者js动态生成页面内容,搞爬虫的两三次估计就疯了

0
罪恶的花生
罪恶的花生

最简单请求频繁次数限制,每次提示时增加限制级别,比如警告,验证,直接505

0
taohe
taohe
大公司的爬虫UA里面有'google'、'baidu'等标识
0
染墨若流云
染墨若流云
采用https访问方式,采用token验证等技术,采用ip限制访问策略等,采用验证码等
返回顶部
顶部