Spiderman爬虫

专送一血的码农 发布于 2015/05/20 00:02
阅读 568
收藏 0

@自风 你好,想跟你请教个问题:我有这么一个场景 我要爬去一个列表页面  有分页的(下一页),列表里面有个详情页面 我要的数据是(列表页面中的A字段 和详情页面中的数据B字段)组合而成的,这种场景Spiderman好配置么?还是需要自己实现抓取规则?

加载中
0
自风
自风

暂时配置两个目标target来完成这个事情,每个目标得到的结果你需要在监听器里写代码去合并,举个栗子:

目标一: 抓取列表中的A字段,先用URL地址查询数据库是否已存在B字段数据,有的话更新,无的话插入数据,注意URL地址也要当成一个字段保存进去

目标二: 抓取详情中的B字段,先用URL地址查询数据库是否已存在A字段数据,有的话更新,无的话插入一条记录,注意URL地址也要放进去

0
LibKing
LibKing
你好,我这边只想要A字段,xml里面应该怎么配置,谢谢.刚研究这个.求大神赐教.
自风
自风
请参考http://my.oschina.net/laiweiwei/blog/100866 和 sample项目里的各种xml
返回顶部
顶部