python抓取数据问题

一曲相思 发布于 2015/05/15 14:35
阅读 194
收藏 0
import urllib2
from lxml.etree import HTML
import lxml
def getHtml(url):
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
    h=opener.open(url).read()
    return h


html=getHtml("http://cosme.pclady.com.cn/product/80237.html")
print html.decode('gbk').encode('utf8')

htmlStr = HTML(html)



我这样写了 为什么 print html.decode('gbk').encode('utf8')输出来的只有页面一般的数据 这个要怎么处理?

加载中
0
orangleliu
orangleliu
没看懂啥问题,页面一般的数据是什么意思?
一曲相思
price=htmlStr.xpath('//p[@id="productPrice"]') 我加上这句话 然后print price 是个空的list 按道理是可以抓取到里面的数据的
一曲相思
就是print出来的数据少了 只有一部分的数据 不知道为什么
0
豚鼠窝窝
豚鼠窝窝
代码没问题,你到底想要什么?
豚鼠窝窝
豚鼠窝窝
一般情况下是控制台显示不出来这么多数据,或者那个数据是ajax产生的。 最有可能的情况是xpath里面的代码错了,你在仔细看看。
一曲相思
price=htmlStr.xpath('//p[@id="productPrice"]') 我加上这句话 然后print price 是个空的list 按道理是可以抓取到里面的数据的 我看了下控制台 页面的数据少了导致抓取不到
返回顶部
顶部