0
回答
nutch DmozPraser工具命令改写
终于搞明白,存储TCO原来是这样算的>>>   

bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 3000 >domzurls.txt

这个命令是直接content.rdf.u8 300万条URL里随机挑选,如果改为在DMOZ中文页面里的计算机领域下随机抽取500个URL作为Nutch的开始URL,上面命令应该怎么改写?

谢谢大家,帮我解决一下。

举报
zwjtlulu
发帖于3年前 0回/171阅
顶部