nutch1.7 爬取网页parse问题

leave00608 发布于 2014/03/10 12:41
阅读 861
收藏 1
执行命令  bin/nutch crawl urls -dir tmpData -threads 50 -depth 2
nutch-site.xml配置:

简略报错信息:

hadoop.log日志文件里的报错信息:

报错所指源码部分一:

报错所指源码部分二:


网上类似的关于此问题的帖子:
http://lucene.472066.n3.nabble.com/Nutch-1-7-Parser-java-lang-OutOfMemoryError-unable-to-create-new-native-thread-td4096365.html

没看懂。。。
求大神解决。跪求。。。!!!
加载中
0
0
m
momomo


这个问题有两个解决方案,一个是你加入topN 参数, 不超过2000就parse成功。

第二个,修改源代码,重新编译。

修改:src/java/org/apache/nutch/parse/ParseSegment.java

定义个类成员

private ParseUtil parseUtil = null;

然后,在99行 修改为

ParseResult parseResult = null ; 
try { 
//parseResult = new ParseUtil(getConf()).parse(content); 
if ( parseUtil == null ) 
parseUtil = new ParseUtil ( getConf ()); 
parseResult = parseUtil . parse ( content ); 
} catch ( Exception e ) { 
LOG . warn ( "Error parsing: " + key + ": " + StringUtils . stringifyException ( e )); 
return ; 
} 




 


leave00608
leave00608
感谢,这问题已解决,源码已修改。
返回顶部
顶部