scrapy的获取动态网页内容

dancingCod 发布于 2016/11/17 20:54
阅读 1K+
收藏 0

@明天以后 你好,想跟你请教个问题:我在爬取一个动态网站http://www.lnzc.gov.cn/SitePages/AfficheListAll1.aspx  。能用scrapy获得当前页需要的连接,也能根据dopostback函数爬取下一页的内容,但是在两部分合到一起的时候有点迷惑。我的目的是爬取每一页的超链接。看了你的博客:scrapy框架提高,还是不太懂,主要是对scrapy不熟悉,please guide me

加载中
0
明天以后
明天以后

使用Scrapy的时候,尽量不要在用外部的http请求了,直接使用内置的Request、FormRequest等。

如果非要使用的话,推荐你 requests模块。

https://github.com/lpe234/meizi_spider/blob/master/meizi/spiders/meizi_spider.py  之前写的一个示例吧。

还有就是,你需要好好阅读一下官方文档。

http://scrapy.readthedocs.io/en/latest/

dancingCod
dancingCod
非常感谢你的回复
0
mickelfeng
mickelfeng

这个网站ajax请求加密了的。scrapy 本身有request方法。没必要用第三方http库

requests库的确很强大

dancingCod
dancingCod
非常感谢你的回复。
0
dancingCod
dancingCod

引用来自“明天以后”的评论

使用Scrapy的时候,尽量不要在用外部的http请求了,直接使用内置的Request、FormRequest等。

如果非要使用的话,推荐你 requests模块。

https://github.com/lpe234/meizi_spider/blob/master/meizi/spiders/meizi_spider.py  之前写的一个示例吧。

还有就是,你需要好好阅读一下官方文档。

http://scrapy.readthedocs.io/en/latest/

你好,我试着用了FormRequest,就是另外定义了一个翻页的函数nextpage(self,response),一个默认函数parse(self,response),在parse函数末尾callback=self.nextpage,能实现翻页吗,因为这个网址一直不变,所以我在担心这个两个函数的response是不是同一页,想试验,但报错:missing scheme request url:h,不知道该怎么改,请帮忙解答下,非常感谢
明天以后
明天以后
看文档,看文档,看文档~~~~
返回顶部
顶部