用eclipse跑webmagic抓取网页例子无任何输出?

youzhoutai 发布于 2017/02/20 19:47
阅读 2K+
收藏 0

eclipse跑的就是如下的例子,但是控制台没输出,这个是咋回事了,无论运行还是debug模式?新手不太懂。

控制台输出:

log4j:WARN No appenders could be found for logger (us.codecraft.webmagic.scheduler.QueueScheduler).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

 

 

 

跑的例子:

private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    // process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑
    public void process(Page page) {
        // 部分二:定义如何抽取页面信息,并保存下来
        page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());
        page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());
        if (page.getResultItems().get("name") == null) {
            //skip this page
            page.setSkip(true);
        }
        page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));

        // 部分三:从页面发现后续的url地址来抓取
        page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all());
    }

    
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {

        Spider.create(new App())
                //从"https://github.com/code4craft"开始抓
                .addUrl("https://github.com/code4craft")
                //开启5个线程抓取
                .thread(1)
                //启动爬虫
                .run();
    }

加载中
0
穹劲天空

我也碰到了,您解决了吗,

0
哥几个丶走着

同遇到这问题,求解决方法

0
0
happysoul
happysoul

如果要看日志 你要配置 log4j.properties 文件啊~ 要不他怎么知道按什么格式输出日志啊。。。

另外 你要System.out.println("你要显示的东西"); 什么都不配当然没有输出了

0
czltx224
czltx224

需要添加log4j的配置才会有

0
starsky1
starsky1

配置了也没有咋搞

 

0
henease
henease

配置好slf4j的maven依赖和log4j配置文件后,然后跑webmagic-core-<最新版本号>.jar下us.codecraft.webmagic/processor/example/GithubRepoPageProcessor.java这个例子就可以了。

0
felix-Wang
felix-Wang

 

log4j.properties文件放在classpath下边就好了

log4j.rootLogger=info, ServerDailyRollingFile, stdout log4j.appender.ServerDailyRollingFile=org.apache.log4j.DailyRollingFileAppender log4j.appender.ServerDailyRollingFile.DatePattern='.'yyyy-MM-dd log4j.appender.ServerDailyRollingFile.File=logs/notify-subscription.log log4j.appender.ServerDailyRollingFile.layout=org.apache.log4j.PatternLayout log4j.appender.ServerDailyRollingFile.layout.ConversionPattern=%d - %m%n log4j.appender.ServerDailyRollingFile.Append=true log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH\:mm\:ss} %p [%c] %m%n

返回顶部
顶部