用python 的正则表达式写了一个爬虫,爬用户名不完善

fujoshi 发布于 2018/06/25 19:04
阅读 156
收藏 0

加载中
0
fujoshi
fujoshi

import requests
import re


def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 100)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def parse_one_page(html):
    pattern=re.compile('<a'+'.*?"username">(.*?)</a>',re.S)
    items=re.findall(pattern,html)
    for item in items:
        yield{
            'user':item[0]
           

            }
源代码如下:         
if __name__=='__main__':
    url='https://www.imooc.com/course/coursescore/id/159?page=2'
    html=getHTMLText(url)
    for item in parse_one_page(html):
        print(item)

返回顶部
顶部