如何从给定网页中抓取自己想要的文字或者图片?

YuanyuanL 发布于 2013/11/27 14:46
阅读 294
收藏 0

    首先,OSC的翻译模块,在获取推荐的文章的标题和原文链接后,OSC是如何将原文分段并部署到翻译模块的呢? @红薯

    如果是自动处理的,能否分享下处理方法和原理

    其他人如果也有这方面的想法,欢迎回帖~~非常感谢大家的分享~~

    

加载中
0
红薯
红薯

人工处理的

YuanyuanL
YuanyuanL
好吧 ~~ 有种绝望的赶脚
0
WoodBunny
WoodBunny
段落不一定一致  这种工作基本都是人工干预的
YuanyuanL
YuanyuanL
哎 苦难重重啊
0
WoodBunny
WoodBunny

目前的情况是 如果你是从一个指定的网站的指定的类目下抓取 

对方网站的结构比较好的话 通过正则分析 还是有规律可循的 

比如我用这样的方法 分析过新浪的新闻 

但是同样的代码用于 网易的新闻 就不行了 就是这个道理

DOM结构不一样  时不时的插入一些 HTML 跟 Javascript 干扰

程序无法分辨 只能人工干预了

YuanyuanL
YuanyuanL
是啊 没规律就很难办呢
0
simona
YuanyuanL
YuanyuanL
还没有答案咧。。
0
simona
simona
路过一下
0
强子大叔的码田
强子大叔的码田

我记得有个curl开源软件,可以用来抓取指定网页,然后可以根据规律搜索感兴趣的内容。

我之前做facebook网页分析做了半年,做到吐血。

YuanyuanL
YuanyuanL
厉害 可以借鉴
0
悠悠然然
悠悠然然

偶以前做过内容抓取,主要就是从别人家的网站当中抓取图片或内容。

只要它的内容是从数据库里搞出来的,只要对方没有防抓取机制,都可以抓取。

如果有防抓机制,那么处理起来就复杂得多,效率也会慢得多。

当然前面的同仁们也说过了,人家做得越好,处理起来越简单,人家做得越垃圾,你处理起来越难。

我碰到的最恶心的处理是这样的,对方故意把脚本写错,浏览器的容错性是相当好的,因此浏览的时候,没有什么问题,但是对于程序来说,什么htmlParser统统死悄悄,所以,偶没有办法,就写了一个容错性超NB的HTML Parser,绝大多数情况都可以搞定。

YuanyuanL
YuanyuanL
哇噻。酱紫都可以
0
林小宝
林小宝
jsoup,你会爱上它的,可以适当的自己封装一下,就可以自动提取内容,生成javabean
返回顶部
顶部