0
回答
webmagic结果为null
利用AWS快速构建适用于生产的无服务器应用程序,免费试用12个月>>>   

@黄亿华 你好,想跟你请教个问题:

就是获取blog的例子,结果为:

get page: http://my.oschina.net/flashsword/blog
title: null
content: null
tags: []

而且自己就结束了,注解的方式也是,同时,获取github的那个例子又是可以成功获取到内容的,代码没有变动,想请教一下是为什么,不胜感激!

public class OschinaBlogPageProcesser implements PageProcessor {


    private Site site = Site.me().setDomain("my.oschina.net");


    @Override
    public void process(Page page) {
        List<String> links = page.getHtml().links().regex("http://my\\.oschina\\.net/flashsword/blog/\\d+").all();
        page.addTargetRequests(links);
        page.putField("title", page.getHtml().xpath("//div[@class='BlogEntity']/div[@class='BlogTitle']/h1").toString());
        page.putField("content", page.getHtml().$("div.content").toString());
        page.putField("tags",page.getHtml().xpath("//div[@class='BlogTags']/a/text()").all());
    }


    @Override
    public Site getSite() {
        return site;


    }


    public static void main(String[] args) {
        Spider.create(new OschinaBlogPageProcesser()).addUrl("http://my.oschina.net/flashsword/blog")
             .addPipeline(new ConsolePipeline()).run();
    }
}




举报
ingskying
发帖于2年前 0回/121阅
顶部