如何实现wget在http上的正则搜索

zhang.zhe 发布于 2011/08/11 15:53
阅读 1K+
收藏 0

之前一直尝试收集某些特定名称url下的内容,比如http://www.amazon.com/Harry-Potter-...

为此甚至想到把google的搜索结果加到wget后面之类的土办法:

wget -r -np -l2 http://www.google.com.hk/#hl=zh-CN&source=hp&q=harry+potter&oq=harry+potter&aq=f&aqi=&aql=&gs_sm=e&gs_upl=946l4106l0l4280l12l8l0l0l0l0l0l0ll0l0&fp=11e2cf384cbeb71&biw=1249&bih=624

但后来发现google会阻止类似的操作。

所以请教一下有何解决办法,当然不一定用wget,有其他爬虫类的软件可以实现类似功能也行。

加载中
0
鉴客
鉴客
Google 阻止是因为你访问太快了,另外还要在设置一个模拟浏览器的 User-Agent
返回顶部
顶部