2
回答
用python爬html代码 得到的地址 前面有[u' 后面有 ']
利用AWS快速构建适用于生产的无服务器应用程序,免费试用12个月>>>   

源html:

<a href="/item.htm?id=4365206" target="_blank"><img id="lz_4365206" data-ks-lazyload="https://img.alicdn.com/bao/uploaded/i1/1836700228/TB29RHLaTIlyKJjSZFrXXXn2VXa_!!1836700228.jpg_220x220.jpg" src="/public/static/img/lazy-loading.gif" alt="831-TP65秋季休闲运动卫衣潮款运动服套装男" /></a>
[u'https://img.alicdn.com/bao/uploaded/i1/1836700228/TB29RHLaT

 

用python爬html代码 用re.findall正则表达式

    def getImagex(self,mun):
        mm = re.findall(r'<a .*?>(.*?)</a>', self.getImage(self.getCode(mun)), re.S|re.M) 
        for value in mm:
            return re.findall('lazyload="(.*?)"',value)

得到一个图片文件的完整地址 就像这样:

[u'https://img.alicdn.com/bao/uploaded/i1/1836700228/TB29RHLaTIlyKJjSZFrXXXn2VXa_!!1836700228.jpg_220x220.jpg']

为什么前面有[u' 后面有 ']   是什么原理?

然后怎么去掉呢 

 

举报
fanvy
发帖于3个月前 2回/107阅
顶部