如何去抓取电商网页上的宝贝信息,比如淘宝,京东,不知道一淘是怎么做的

iusmile 发布于 2012/11/13 17:22
阅读 4K+
收藏 3
有一个需求,根据url去抓取淘宝页面上的宝贝信息,就像一淘一样,能够抓取不同网站的宝贝信息,比如可以抓取当当,京东等其他电商网站的!
加载中
0
景愿
iusmile
iusmile
亲,你怎么了
0
果酱
果酱

这个不好实现,一般应该用js 根据页面里的标签格式去抓取

有2个条件

1 被抓取的页面要潜入你的js

2 还要保证页面的格式不能变

还有一种办法就是根据URL用流的方式读取页面,在去分析页面里的内容


孙彦欣
孙彦欣
回复 @iusmile : 恭喜你 有措施的,淘宝的我试过 太猛了 就自动屏蔽你1小时
iusmile
iusmile
第一个方式曾经试过,但是抓取的数据的准确性不敢保证,因为页面的格式不能保证! 第二个方法不知道大批量的去读取的时候,不知道对方服务器会不会采取一些措施之类的!
0
桂荣
桂荣
嗯,曾经做过用JSOUP抓取页面的东东。。。,也是根据标签去分析
mingshun
mingshun
回复 @iusmile : 现在很多网站都用js动态获取数据,想准确还得解析js。
iusmile
iusmile
嗯嗯,就是用的这个做的,但是数据准确性确实不行
0
明月惊鹊
明月惊鹊
下载一个《企业名录搜索》之类的hi东西就可以看到了。
0
c
cxfpeter
http://www.oschina.net/question/144709_76993
0
匿名t3a
匿名t3a
你直接抓一淘 就不可以了
iusmile
iusmile
呃,这想法
0
xyxo
xyxo
顶~~既然一淘都帮忙干了这件事了,你直接想办法处理一淘页面啊~~
0
Cavalier
Cavalier
个人感觉根据标签的
0
xoHome
xoHome
智能抓取太复杂了,我看还是针对不同网站不同格式做硬编码吧
xoHome
xoHome
你毕竟是针对人家的网站来取数据,人家样式多也没办法,只能根据各种样式硬编码
iusmile
iusmile
不过这个也很麻烦,因为就算是同一个网站不同页面的样式也不太一致
0
北之零年
北之零年
不知道你想怎么个抓法,单就获取信息的话,调用淘宝的API就挺好,很方便。
钯金雨雨
钯金雨雨
@北之零年 骚年 我来看你了
北之零年
北之零年
那也好办,根据这个活动页面的URL抓取该页面所有宝贝的URL,然后再通过这些宝贝的URL调API获取信息。
iusmile
iusmile
不是单条,比如有一个活动页面url,然后把这个页面上的所有宝贝信息抓取过来!
返回顶部
顶部