2
回答
用python爬html代码 得到的地址 前面有[u' 后面有 ']
科大讯飞通用文字识别100000次/天免费使用。立即申请   

源html:

<a href="/item.htm?id=4365206" target="_blank"><img id="lz_4365206" data-ks-lazyload="https://img.alicdn.com/bao/uploaded/i1/1836700228/TB29RHLaTIlyKJjSZFrXXXn2VXa_!!1836700228.jpg_220x220.jpg" src="/public/static/img/lazy-loading.gif" alt="831-TP65秋季休闲运动卫衣潮款运动服套装男" /></a>
[u'https://img.alicdn.com/bao/uploaded/i1/1836700228/TB29RHLaT

 

用python爬html代码 用re.findall正则表达式

    def getImagex(self,mun):
        mm = re.findall(r'<a .*?>(.*?)</a>', self.getImage(self.getCode(mun)), re.S|re.M) 
        for value in mm:
            return re.findall('lazyload="(.*?)"',value)

得到一个图片文件的完整地址 就像这样:

[u'https://img.alicdn.com/bao/uploaded/i1/1836700228/TB29RHLaTIlyKJjSZFrXXXn2VXa_!!1836700228.jpg_220x220.jpg']

为什么前面有[u' 后面有 ']   是什么原理?

然后怎么去掉呢 

 

举报
fanvy
发帖于10个月前 2回/140阅
顶部