轻松一下,一个关于网页内容抓取的思路

此人已死,有事烧纸 发布于 2012/04/19 16:12
阅读 147
收藏 0

要实现的功能:

给你一个网页,返回它的主要内容。

要求:

 

加载中
0
此人已死,有事烧纸
此人已死,有事烧纸

我先来:

首先分析出这个页面两个a标签之间的内容

然后返回最长的那个。

 

0
此人已死,有事烧纸
此人已死,有事烧纸

第二个:

先给页面截个图,然后根据颜色分区成几个块,然后逐渐缩小这些块,最后剩下的那个块就是主要内容了。然后在用ocr识别这个块里原来的文字。

返回就可以了

0
此人已死,有事烧纸
此人已死,有事烧纸

第三个:

发明一个机器人,让他自己去搞

0
ganlinlin
ganlinlin
用网络爬虫
返回顶部
顶部