python抓网页源代码的问题,抓到的和看到的不一样啊

隔壁的流氓王欧巴 发布于 2016/01/25 12:16
阅读 1K+
收藏 0

import urllib
import urllib2
import re
d = 0
page = 1
url = 'http://www.agri.cn/province/bejing/'

try:
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    print content

 

我想抓的是源码中的这个部分,但是现在我用上述的代码抓下来的源码根本不包括这一块儿啊。。。求解,这是什么情况

 

 

加载中
1
北京老爷们儿
北京老爷们儿
兄弟,对于一个http请求,很可能会包含很多对资源类和非资源的请求,我们在页面上看到的“源代码”是很多的块堆成的。比如你访问这个网站,每个部分都可能由单独的requests组成。你要的页面有可能是http://www.agri.cn/province/bejing/下面的子请求,所以,http://fwbjc.agri.gov.cn/IFRAME/HOME/BJ_PFJG.html是一个子请求,你要的东西自然在它的response里
1
幻舞奇影
幻舞奇影
ajax加载的,你抓的是空壳
幻舞奇影
幻舞奇影
回复 @隔壁的流氓王欧巴 : 看其他人说是iframe,iframe是页面框架,里面加载的是另外的一个html,那你就解析原来的页面获取到iframe的地址,再去那个地址里抓
隔壁的流氓王欧巴
隔壁的流氓王欧巴
'http://fwbjc.agri.gov.cn/IFRAME/HOME/BJ_PFJG.html' 后来我在这个网页里抓到了。。。啥原理。。。。。。
1
zabcd117
zabcd117
这明显是个iframe啊,去iframe里面找信息啊
隔壁的流氓王欧巴
隔壁的流氓王欧巴
回复 @cs_sharp : 原来如此,谢了
cs_sharp
cs_sharp
回复 @隔壁的流氓王欧巴 : 每次采集,监控页面上的<div id="ContentBox22">内的iframe网址。这样就不怕换地址了。
隔壁的流氓王欧巴
隔壁的流氓王欧巴
他这个每天会换地址么。。。
0
bobohb
bobohb
估计是js没运行
隔壁的流氓王欧巴
隔壁的流氓王欧巴
'http://fwbjc.agri.gov.cn/IFRAME/HOME/BJ_PFJG.html' 后来我在这个网页里抓到了。。。啥原理。。。
返回顶部
顶部