请教大哥一个网络蜘蛛的问题

杨瑾 发布于 2012/06/17 13:23
阅读 362
收藏 1

@红薯 红薯哥你好,想跟你请教个问题:我从未用过网络蜘蛛,现在需要用网络蜘蛛在“大众点评网http://www.dianping.com/search/keyword/1/0_世博会/p4” 抓取2010年世博会的场馆评论信息,一朋友给了如下操作建议:

场馆评论信息的页面是在大众点评网站首页,搜索“世博会”进入到页面,作为链接的入口页。步骤如下:

1)进行基本页面的信息配置,设定该入口页为列表页,提取上海16个行政地区餐馆排名网页的链接地址。配置入口的URL,设定如下:http://www.dianping.com/search/keyword/1/0_世博会/p1,采用Get的页面调用方式。

2)进行页面定位信息配置,帮助软件定位行政区链接显示区域。通过页面源代码分析,分别输入列表开始、结束的字符串和记录开始、结束字符串提高页面解析的效率。

3)进行页面解析,进而得到文章链接。在该步骤中最关键的是定位数据项(在此步骤中数据类型为URL)的规则表达式。根据页面的代码分析,设定规则通过规则表达式解析数据项后得到链接。

4)将解析出的链接作为URL来源数据,将各行政区的页面作为“下级页面”,设定其为正文页显示形式进行抓取,重复步骤(2)和(3),即进行页面配置与页面解析。

5)为保存抓取结果进行入库配置。进行页面入库数据表列表、字段对照值列表等的配置。配置完成后便可以进行抓取操作了。

可是我看不懂,请您指教。您能帮帮我么。

加载中
0
永远对你好
永远对你好

不如自己编写一个:获得url-->获得页面-->解析页面获得内容-->获得下一个url--..................

0
阿酷
阿酷
这种问题我相信有很多人可以给你一些帮助,为啥要指定红薯回答呢?你这样提问会让你获得答案的机会变低哦~
0
wlrjgzs
wlrjgzs
得,知道也不告诉你,让红署大哥给你解答吧。指名道姓寻帮助,俺们只有闪啊!
0
被风遗忘
被风遗忘

引用来自“lshlj”的答案

得,知道也不告诉你,让红署大哥给你解答吧。指名道姓寻帮助,俺们只有闪啊!
知道就回复一下嘛.别那么小气吗?哈
0
落叶随风、
落叶随风、
坐等红薯哥哥回答
0
xmdeepdata
xmdeepdata

文字都看不懂,人家怎么教你?

好歹说下你看不懂什么?

0
hlevel
hlevel
一级一级往下深入 先拿到分类,再进入分类拿列表标题,进标题再拿 评论,貌似这个意思
0
Andre.Z
Andre.Z

我怎么觉得是一个软件的使用说明????????????
真是啥都能问了,一个软件怎么用也在这里问???

0
杨瑾
谢谢大家
0
数据工厂
数据工厂
写爬虫,可以用神箭手云爬虫:http://www.shenjianshou.cn/。上手最简单的云爬虫框架。
返回顶部
顶部