Jsoup如何处理延时加载的内容

kevinpan45 发布于 2014/10/08 15:54
阅读 2K+
收藏 0

部分内容是延时加载的,因为没有区分这一类内容的特定标志,也不知道什么时候加载完成,对于这一类页面有什么好的处理方式,这有个例子

<div id="delayloaddiaoyu">
   正在生成信息, 请稍候 
 <img src="http://p6.qhimg.com/t015bb54926d89e7875.gif" /> 
</div>



加载中
0
猪大宝
猪大宝
这是异步加载的,jsoup无能为力啊,phantomjs或者selenium吧
猪大宝
猪大宝
回复 @kevinpan45 : 要是这个请求url你能获取,你也可以用jsoup,他是直接请求链接,然后获取文本内容,不是读取本地啊
kevinpan45
kevinpan45
问题又变得复杂了,爬虫都是渲染成本地页面文件再分析吗?
0
牛奋Debug
牛奋Debug
这延迟加载的也会发送一次http请求吧,为何不获取延迟加载的那个url
0
l
lightbean
去去去
class GetNewTravelNote(scrapy.spiders.Spider):
    name = "GetTravelNote_xc"
    allowed_domains = []
    start_urls = ["http://you.ctrip.com/travels/"]

    def parse(self, response):
        time.sleep(10)
        soup = BeautifulSoup(response.body, 'html5lib')



class GetNewTravelNote(scrapy.spiders.Spider):
    name = "GetTravelNote_xc"
    allowed_domains = []
    start_urls = ["http://you.ctrip.com/travels/"]

    def parse(self, response):
        time.sleep(10)
        soup = BeautifulSoup(response.body, 'html5lib')



返回顶部
顶部