用python抓取淘宝产品数据

一曲相思 发布于 2015/05/15 11:25
阅读 3K+
收藏 0
抓取淘宝产品数据 我先抓取的是一个产品的列表页面 抓取每个产品的详情页连接  然后遍历每个产品的详情页 然后来抓取 每个产品的相关信息  从逻辑来看我感觉应该可以通过 然后代码实现起来 抓数据也抓取到了 但是一个页面55个产品 抓出来的却是几个产品的数据 有的产品却是空的 不知道为什么  代码如下:
加载中
0
一曲相思
 [<Element li at 0x2b051c0>, <Element li at 0x2b02788>, <Element li at 0x2b02dc8>, <Element li at 0x2b02aa8>, <Element li at 0x2b0c4b8>, <Element li at 0x2b0c328>, <Element li at 0x2b0c5f8>, <Element li at 0x2b0c198>, <Element li at 0x2b0c058>, <Element li at 0x2b0c530>, <Element li at 0x2b0c6e8>]
产品名称:Nature Republic 芦荟舒缓...
上市时间: 2009年
乳液/面霜品类: 面霜
规格类型: 正常规格
功效: 补水 去印 舒缓镇定 缓解干燥肌肤
适合肤质: 任何肤质
化妆品净含量: 300ml
品牌: Nature Republic
乳液/面霜单品: 芦荟舒缓保湿凝胶
特殊用途化妆品批准文号: 无
是否进口: 进口
[<Element li at 0x2b0cbe8>, <Element li at 0x2b0c288>, <Element li at 0x2f28850>, <Element li at 0x2f28fd0>, <Element li at 0x2f28300>, <Element li at 0x2f288a0>, <Element li at 0x2f280a8>, <Element li at 0x2f289b8>, <Element li at 0x2f28378>, <Element li at 0x2f288c8>, <Element li at 0x2f28760>]
产品名称:Hanhoo/韩后 深海藻保湿达...
上市时间: 2014年
月份: 1月
面膜分类: 贴片式
规格类型: 正常规格
功效: 保湿补水 提亮肤色 晒后修复 深层滋养 收缩毛孔补水
适合肤质: 任何肤质
化妆品净含量: 22ml
品牌: Hanhoo/韩后
面膜单品: 深海藻保湿达人面膜
批准文号: 卫妆准字29-XK-2730号
[]
[]

[] 


数据就类似这样 抓取不全  我是循环55个链接 每次循环的时候抓取数据 然后遍历打印出来 是不是因为循环次数导致的

0
万里谁能驯
万里谁能驯
你最好检查一下网页结构,看看自己的代码是否能与之匹配。
一曲相思
匹配的
0
颓废的幻想者
颓废的幻想者
看下抓取的url里面是否有参数变化
返回顶部
顶部