nutch的分布式部署问题

xieyi 发布于 2012/10/09 13:47
阅读 819
收藏 0

本文在linux下部署了nutch,单机测试已经通过,即可以通过浏览器下载网页,以及查询,但是在分布式上就通过去了,nutch的配置是整个拷贝过去的,而且hadoop也是测试成功的,出错信息如下,恳请大侠帮忙

[root@master bin]# sh nutch crawl urls -dir data -depth 3 -topN 10

crawl started in: data

rootUrlDir = urls

threads = 10

depth = 3

indexer=lucene

topN = 10

Injector: starting at 2012-09-24 13:31:51

Injector: crawlDb: data/crawldb

Injector: urlDir: urls

Injector: Converting injected urls to crawl db entries.

Injector: Merging injected urls into crawl db.

Injector: finished at 2012-09-24 13:33:41, elapsed: 00:01:49

Generator: starting at 2012-09-24 13:33:41

Generator: Selecting best-scoring urls due for fetch.

Generator: filtering: true

Generator: normalizing: true

Generator: topN: 10

Generator: 0 records selected for fetching, exiting ...

Stopping at depth=0 - no more URLs to fetch.

No URLs to fetch - check your seed list and URL filters.

加载中
0
Justina_Chen
Justina_Chen
没有出错,只是没有可抓取的网址了。
返回顶部
顶部