关于抓取网页的问题,curl抓取不到

天南海北 发布于 2014/11/20 22:06
阅读 3K+
收藏 0
PHP

http://www.appannie.com/apps/google-play/top/united-states/game/

请各位帮忙看看,这个网页,为嘛用php的curl方式抓取不到呢?

直接在linux shell下也是抓不到的,只显示如下信息:

curl http://www.appannie.com/apps/google-play/top/united-states/game/index.php/
<html>
<head><title>503 Service Temporarily Unavailable</title></head>
<body bgcolor="white">
<center><h1>503 Service Temporarily Unavailable</h1></center>
<hr><center>nginx</center>
</body>
</html>

请问有人知道这是为啥吗?谢谢!

加载中
0
Tuesday
Tuesday
没问题呀..
zqs125
zqs125
你好,这是什么工具?
0
crazymus
crazymus
是不是需要发送一些模拟浏览器的头信息~
天南海北
天南海北
是的,加了就可以了。晚上写代码头痛,开始没想到这里,谢谢你!
0
数据工厂
数据工厂

推荐大家使用我们开发的神箭手云爬虫(http://www.shenjianshou.cn),里面有不少已经写好可以直接运行的爬虫,包括爬取微信啊,优酷啊,知乎之类的。

如果是开发者也可以直接在后台使用JavaScript编写爬虫,自带图片云托管、代理ip、验证码识别、爬取异步加载的数据等高级功能,省去了很多开发过程中会遇到的问题。爬虫编写和运行都在云上进行,十分方便。

官方demo源码地址:https://github.com/ShenJianShou/crawler_samples,偷偷告诉你,官方会不断放更多demo源码进去哦!

返回顶部
顶部