python Qwebpage爬js动态内容网页

tina437213 发布于 2013/10/12 11:42
阅读 1K+
收藏 0

python2.7

最近想爬百度旅游的页面,遇到一些javascript动态问题,采用了Qwebkit,但不太懂原理?

1.能帮忙解释下这段代码的运行机制吗?


#!/usr/bin/env python
#encoding=utf-8

import sys  
from PyQt4.QtGui import *  
from PyQt4.QtCore import *  
from PyQt4.QtWebKit import *  
import time

class Render(QWebPage):  
  def __init__(self): 
    self.wordList = ['python','c++','钓鱼岛', '博圣云峰', '加勒比海盗', '海贼王', '2012', '世界末日', '地球']
    self.index = 0
    self.app = QApplication(sys.argv)  
    QWebPage.__init__(self)
    self.loadFinished.connect(self._loadFinished)  
    self.mainFrame().setHtml(file('/tmp/%s'%self.wordList[self.index], 'r').read())
    self.app.exec_()  
  
  def _loadFinished(self, result):  
    file('/home/dongsong/桌面/%s.html'%self.wordList[self.index],'w').write(unicode(self.mainFrame().toHtml()).encode('utf-8'))
    self.index += 1
    if self.index >= len(self.wordList):
        self.app.quit()
    else:
        self.mainFrame().setHtml(file('/tmp/%s'%self.wordList[self.index], 'r').read())
    
page = Render()
 主要是这几个函数什么时候调用  什么时候结束? 


self.app = QApplication(sys.argv)  
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)  
self.mainFrame().setHtml(file('/tmp/%s'%self.wordList[self.index], 'r').read())
self.app.exec_()  


  

加载中
返回顶部
顶部