我要抓取一个网站,怎么通过只通过一个url也就是首页,抓取到所有 信息页面

你是错的我恒对 发布于 2013/12/11 19:43
阅读 3K+
收藏 1

我要抓取一个网站,怎么通过只通过一个url也就是首页,抓取到所有 信息页面

例如 淘宝吧,手里只有http://www.taobao.com 这个链接, 怎么爬取所有 最终的商品页面,列表页,店面页 都不要,只要最终的 商品页面

如何写一个 通用的 爬取程序,大体思路 前辈 可否说下,现在 想不通的是 如何确定是 最终的商品页面(深度不同)




以下是问题补充:

@你是错的我恒对:下面评论都挺有帮助的 (2013/12/12 18:56)
加载中
0
Tanweijie
你是错的我恒对
你是错的我恒对
http://www.searchtb.com/2011/07/%E5%BF%AB%E9%80%9F%E6%9E%84%E5%BB%BA%E5%AE%9E%E6%97%B6%E6%8A%93%E5%8F%96%E9%9B%86%E7%BE%A4.html?spm=0.0.0.0.8BYclG
你是错的我恒对
你是错的我恒对
非常感谢,正在学习
1
IamBot
IamBot
wxg:python的scrapy爬虫比较不错哦 - From IRC(http://t.cn/8kJZArX)
0
铂金蕃茄
铂金蕃茄

1.通过url的格式判断最终界面,大网站的URL都挺标准的


2.正则过滤URL爬取商品页面信息

0
Timco
Timco
在站内搜索webmagic,我就用这个爬过
0
leo108
leo108

想做通用的,除非你是搞人工智能的大牛,不然就洗洗睡吧

0
osdong
osdong
用curl,提取数据。
0
HandMU
HandMU
这个问题最大的问题是,你如何判断你所要抓取的页面是信息页面?建议按不同的网站建立不同正则进行抓取。通用的爬行也是需要指定路径或则正则的。
你是错的我恒对
你是错的我恒对
嗯,我一直困惑啊,也许只能用正则匹配url了 = =|
0
dreamans
dreamans
资源多的话就全部抓下来 再清洗数据
0
独-奏
独-奏
爬虫可以纵向抓取,也可以横向抓取,根据你的需求应该横向比较合适
0
shenqing
shenqing
昆虫爱好者?
返回顶部
顶部