2
回答
求大神,爬虫(Java)能实现 百度快照吗?还是离线版的。。
利用AWS快速构建适用于生产的无服务器应用程序,免费试用12个月>>>   

不知道 是个 什么思路,首先  直接 把 整个 网页的源码 保存下来 不靠谱

因为 相对路径的样式、图片 等,很多 自己打开的时候 直接 就 乱的没法看了,更别提 离线了。

难道是把 文件 自己拼上地址 下载下来?这个 能实现吗?


要不就 简单一点,其他的不管了,只 抽取文字的正文。

如果 能实现自动 抽取的话 那也能 基本满足要求。

举报
Inszt
发帖于2年前 2回/566阅
顶部