关于爬取指定前缀的网页??

静心天涯 发布于 2014/10/07 01:12
阅读 189
收藏 1

这几天在学习爬虫,想爬一些数据来学习一下。不过遇到一个问题,不太会。

我想爬取指定前缀的所有网页,从大的方面来说,就是爬取指定域名下的所有网页;换小点的可以这样理解:如http://my.oschina.net/jingxintianya/blog/博客id,前缀是http://my.oschina.net/jingxintianya/blog/,后面还有跟有博客id(可带参数),我如何知道在这个前缀,有多少个 id ? 又有哪些 id?

想过遍历整个网页上所有链接(图的遍历),可又有一个问题,就是孤立的点怎么知道呢??

类似在 osc 下,每个博客前缀 http://my.oschina.net/个人 url,我应该如何获得整个 osc 下所有人的博客??


谢谢。

加载中
0
哈哈__哈哈
哈哈__哈哈
除非你拥有osc数据库,否则你就需要无限爬,收集所有的你想要的链接
0
hibegin
hibegin
做过一个这样。各种判断就行了。如果熟悉正着表达式。就要少些判断了。原理用httpclient 抓取网页jsoup 分析dom 看到符合的链接就存到set 里面。这样就行了。还有就是开源中国好像多循环几次ip 就被拖黑了。
静心天涯
静心天涯
我的做法和这个差不多,不过在想,这样很容易会有遗漏,一些孤立的点,爬不出来
静心天涯
静心天涯
啊,还有这样的事,那得赶紧申请一个小号才行:-D
0
orangleliu
orangleliu
所有人?有点难,爬一个人,用代理,然后把文章列表爬了就行了。所有人博客,不说怎么爬全,就是cos的反爬策略也够你研究下的把
0
leegern
leegern

在提取详情页面url的时候,使用正则表达式来匹配你需要的url,具体提取可以使用jsoup。

返回顶部
顶部