7
回答
使用Google浏览器或者Google工具条将泄漏你的行踪
利用AWS快速构建适用于生产的无服务器应用程序,免费试用12个月>>>   

如果你经常看看网站的访问日志,也就是Web服务器所记录的日志信息就会发现这样的一个 User-Agent

Mediapartners-Google

再细看这些日志就会发现,该爬虫执行的URL地址肯定是之前一个用户访问了某个URL地址,两者的时间间隔只有一秒钟。

请看下面这段日志:

210.51.244.177 - - [06/Jan/2009:16:38:10 +0800] "GET /p/lucene/articles HTTP/1.0" 200 11804 "http://www.google.cn/search?hl=zh-CN&newwindow=1&q=clucene%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0&start=10&sa=N" "Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.0.5) Gecko/2008121622 Ubuntu/8.10 (intrepid) Firefox/3.0.5"
203.208.60.10 - - [06/Jan/2009:16:38:11 +0800] "GET /p/lucene/articles HTTP/1.1" 200 3902 "-" "Mediapartners-Google"

这个应该是装了Google工具条的 FireFox浏览器,如果是用 Chrome 浏览器则底部必定跟着一条来自 Mediapartners-Google 的请求,查询 IP地址的来源就是 Google 公司。

而我的 FireFox 浏览器没有安装 Google 工具条,因此就不会产生这个情况。

先不说这种做法是否合理,但对 Google 公司而言可以简单的获取网页资源。

但假如我们所访问的网站在安全性处理方面比较薄弱的话,那可能你所访问的敏感信息 Google 的爬虫也可以访问得到,想起来还是有点恐怖的。

举报
红薯
发帖于9年前 7回/697阅
顶部