求大神,爬虫(Java)能实现 百度快照吗?还是离线版的。。

Inszt 发布于 2016/03/10 12:02
阅读 614
收藏 0

不知道 是个 什么思路,首先  直接 把 整个 网页的源码 保存下来 不靠谱

因为 相对路径的样式、图片 等,很多 自己打开的时候 直接 就 乱的没法看了,更别提 离线了。

难道是把 文件 自己拼上地址 下载下来?这个 能实现吗?


要不就 简单一点,其他的不管了,只 抽取文字的正文。

如果 能实现自动 抽取的话 那也能 基本满足要求。

加载中
1
探索人生
探索人生
探索人生
@pseudo 自己写的逻辑 没什么技术可谈,网上有很多资料 看一下就可以了
pseudo
pseudo
回复 @探索人生 : 您的网站是用什么技术实现的正文抽取?请问有关于正文抽取相关的书籍或开源技术么
探索人生
探索人生
@Inszt 没有 自己写的
Inszt
Inszt
这个确实 正确率挺高的,但是怎么实现呢,有 文章什么的吗?
0
loyal
loyal
当然能
Inszt
Inszt
。。。 然后呢,用什么 组件还是 什么 算法呢 ?
返回顶部
顶部