Nutch抓取网页的时候nutch crawl urls出错

tngou 发布于 2013/08/16 16:13
阅读 803
收藏 0

Nutch2.x运行

nutch crawl urls

log日志出现如下错误

java.lang.NullPointerException
at org.apache.avro.util.Utf8.<init>(Utf8.java:37)
at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100)
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398)


但如果单打运行

1. Inject
2. Generate
3. Fetch
4. Parse
又不会出错,

加载中
0
chembo
chembo
同问!
0
0
mr_5
mr_5

我也碰到了,根据源码发现是没有取到generate.batch.id这个配置,于是在 nutch-site.xml中配置了一下,随后就没有报错了(这个用来做什么的未知,按字面理解的话,不应该是固定在配置文件中)。

我有另外一个问题,运行 bin/nutch crawl urls -dir crawl -depth 3 -topN 5

永远都是:

InjectorJob: total number of urls rejected by filters: 0
InjectorJob: total number of urls injected after normalization and filtering: 0

楼主可以指点一下吗,按照官方文档配置过了 urls/seeds.txt 和  conf/regex-urlfilter.txt

返回顶部
顶部