nutch的数据应用问题

mengyiqiu 发布于 2013/07/10 16:25
阅读 212
收藏 0

@杨尚川 你好,想跟你请教个问题:

你好,有一个关于Nutch的问题想要请教你,我需要对Nutch的网页结构进行进一步处理,比如信息抽取。怎么把nutch抓取的内容(主要是contents里面的内容)进行导出啊。使用readseg -dump命令导出的文本文件有些没有包含完整的html代码。请问,有什么特别的命令或者接口吗?谢谢了

加载中
返回顶部
顶部