如何爬取网页,提取内容

majinliang 发布于 2013/12/13 15:02
阅读 1K+
收藏 1
@黄亿华 你好,想跟你请教个问题:我想采集一个有几个亿商品的网站,它有很多套模版不知道怎么抓,能提供点思路吗
加载中
0
黄亿华
黄亿华

很多套模板是多少?

目前来看手写规则还是比较靠谱的方法,至于适配多少模板看你的写法了。

我读研的时候也有同学研究过自动抽取的技术,比如这篇http://d.wanfangdata.com.cn/periodical_jsjgcysj200824008.aspx 但是需要不少技术基础,不建议在工程项目中直接使用。

0
彭博
彭博
你是说taobao么 呵呵
返回顶部
顶部