python抓取数据问题

一曲相思 发布于 2015/05/18 10:30
阅读 187
收藏 0
#-*- coding: UTF-8 -*-
from lxml.etree import HTML
import lxml
import urllib2
urls=[]
def getHtml(url):
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
    html=opener.open(url).read()
    return html
html=getHtml("http://cosme.pclady.com.cn/product/99004.html").decode('gbk').encode('utf8')
h = HTML(html)
print h
x=h.xpath('//p[@class="pCpgg"]')

print x


我感觉代码没有问题  但是最后X打印出来的是一个空的list 最后debug发现 html的数据不是整个页面的 为什么会这样呢?大家能不能帮忙看看

加载中
0
MrZQ
MrZQ
为什么不用requests和BeautifulSoup?
MrZQ
MrZQ
回复 @wlg910525 : lxml又不是爬虫~
一曲相思
朋友说lxml爬虫强大点
0
wbchn
wbchn
这是动态页面,urllib抓出来是静态页面,没有数据的。
wbchn
wbchn
网页编码是gb2312的。 <meta http-equiv="Content-Type" content="text/html;charset=gb2312" />
一曲相思
抓取到了,lxml会由于编码原因抓取不到
返回顶部
顶部