0
回答
nutch DmozPraser工具命令改写
利用AWS快速构建适用于生产的无服务器应用程序,免费试用12个月>>>   

bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 3000 >domzurls.txt

这个命令是直接content.rdf.u8 300万条URL里随机挑选,如果改为在DMOZ中文页面里的计算机领域下随机抽取500个URL作为Nutch的开始URL,上面命令应该怎么改写?

谢谢大家,帮我解决一下。

举报
zwjtlulu
发帖于4年前 0回/172阅
顶部