请教 爬虫正则匹配问题

kairen 发布于 2016/03/09 12:53
阅读 672
收藏 0
准备爬内涵段子,筛选出点赞数大于5000的段子打印出来我的正则匹配是pattern = re.compile('<h1.*?class="title">.*?<p.*?>(.*?)</p>.*?</h1>(.*?)<li.*?class="digg-wrapper">.*<span.*?class="digg">(.*?)</span>.*?</li>',re.S)第一个(.*?)表示段子,第二个(.*?)表示点赞数,但为程序运行后反馈为响应。还有这样后经常会CPU占用率百分之百,让我不得不重新启动,求大神赏脸解答
加载中
-1
Fly_f
Fly_f
直接用find找
k
kairen
回复 @Kiss_ : 谢谢你 我今天发现了beautifulsoup 学习了一下发现beautifulsoup非常好用 已经解决了
Fly_f
Fly_f
回复 @kairen : 这样会比用正则匹配快
Fly_f
Fly_f
回复 @kairen : find 会找到字符位置 在find一次找到末尾。 用string[xx:xx] 把内容拿出来。
k
kairen
请问一下find怎么查找标签里面的内容?我没有百度到类似的用法
返回顶部
顶部