如何查看网站是否被爬取

吃益达的人 发布于 2016/10/17 15:29
阅读 672
收藏 0

网站目前有些时段流量会很大 怀疑是被同行爬了网站  

如何查看 是否有人爬了网站的东西

用的是php+mysql+nginx  (阿里云)

加载中
0
Feng_Yu
Feng_Yu
对比下访问日志中动态页面和js/css的比例就知道了
IdleMan
IdleMan
回复 @Feng_Yu : 只会爬取不会索引。google bot已经能够解析js的输出结果了,比如document.write(各种变量运算后产生的结果)。
Feng_Yu
Feng_Yu
回复 @IdleMan : google bot我记得只是在google analysis页面展示的时候才会去抓一下css和js,在google搜索的时候就没这些东西,最多有页面图片。再者通常正常的引擎蜘蛛不会对网站负载造成冲击。所以通过这种分析方式是可以发现自己的网站是否被暴力爬取的。
IdleMan
IdleMan
google bot,js/css/图片都会抓取
0
IdleMan
IdleMan

根据访问日志客户端IP查询地址,如果是搜索引擎公司的IP会体现出来。可以选几个典型的IP。




Feng_Yu
Feng_Yu
回复 @吃益达的人 : goaccess
吃益达的人
吃益达的人
访问日志 太多了 有啥便捷的方法看到吗
0
szwx855
szwx855
检查nginx中的access,检查其中有没有spider ,baidu,google等在head中出现的词,若是,则是百度或其它搜索引擎正确抓取的结果。若没有,在分析access中的这些IP,是否有规则 。有规则 加黑名单 。通过NGINX返回无效请求。
返回顶部
顶部