nutch DmozPraser工具命令改写

zwjtlulu 发布于 2014/04/24 08:18
阅读 223
收藏 0

bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 3000 >domzurls.txt

这个命令是直接content.rdf.u8 300万条URL里随机挑选,如果改为在DMOZ中文页面里的计算机领域下随机抽取500个URL作为Nutch的开始URL,上面命令应该怎么改写?

谢谢大家,帮我解决一下。

加载中
返回顶部
顶部