ForeSpider

GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。 该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、Cookie里的数据。 该项目定义了一种简洁、灵活、敏捷的结构或者说是规则语法。极尽其所能将网页内容、HTTP报头、Cookie、甚至关联其它网页、其它网站数据,抽取出有意义有价值数据字段,组成一条数据记录。除此之外,还能内嵌http请求,以补...

相关文章

加载中

[博客] 前嗅ForeSpider教程:采集预览

https://my.oschina.net/u/2691689/blog/3012921

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行采集预览。主要内容包括:采集预览的使用方法,预览链接/数据抽取,和预览错误情况排查;具体内容如下: 一,采集预览的使用方法...

2019/02/21 00:00

[博客] 前嗅ForeSpider教程:配置关键词

https://my.oschina.net/u/2691689/blog/3011837

对于通过关键词,在网页的搜索栏检索的情况,可以在软件中,通过配置关键词实现。那么,今天小编来为大家介绍:如何在前嗅ForeSpider中,配置关键词。 一,关键词配置的步骤 第一步:打开关键...

2019/02/19 00:00

[博客] 前嗅ForeSpider脚本教程:基本语句

https://my.oschina.net/u/2691689/blog/3021742

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基本语句。内容包括:顺序语句,条件语句,循环语句,开关语句和返回语句。 1.顺序语句 ForeSpider脚本语法规则类似JavaScript、C++等...

2019/03/13 00:00

[博客] 前嗅ForeSpider脚本教程:脚本概述

https://my.oschina.net/u/2691689/blog/3020543

本教程主要对前嗅ForeSpider脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下: 一.ForeSpider脚本结构 ForeSpid...

2019/03/11 00:00

[博客] 前嗅ForeSpider教程:创建模板

https://my.oschina.net/u/2691689/blog/3012229

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下: 一,模板的概念 模板列表的层级相当于网页跳转的...

2019/02/20 00:00

[博客] 前嗅ForeSpider教程:抽取数据

https://my.oschina.net/u/2691689/blog/3014350

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容如下: 一,如何选择表单 在ForeSpider爬虫中,表单...

2019/02/25 00:00

[博客] 前嗅ForeSpider教程:验证码设置

https://my.oschina.net/u/2691689/blog/3019136

当我们遇到某些网站,采集每一条数据都需要输入一条验证码时,就用到了验证码设置。今天,小编为大家详细介绍一下:前嗅ForeSpider中的验证码设置。具体操作如下: 当采集某些网站的数据时,...

2019/03/07 00:00

[博客] 前嗅ForeSpider教程:链接抽取

https://my.oschina.net/u/2691689/blog/3013732

今天,小编为大家带来的是:在前嗅ForeSpider采集过程中,链接抽取操作中的一系列知识点,主要内容有:如何关联模板,如何判断模板关联是否正确,选择链接类型以及过滤的三种方式。具体内容如...

2019/02/22 00:00

[博客] 前嗅ForeSpider教程:运行设置(三)

https://my.oschina.net/u/2691689/blog/3018035

今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的任务定时,预警设置,过滤设置,这三大模块。具体内容如下: 一,任务定时 【任务定时】 用户可以通过任务定时,进行自动启动/停止...

2019/03/05 00:00

[博客] 前嗅ForeSpider教程:IP代理设置

https://my.oschina.net/u/2691689/blog/3018622

今天,小编主要为大家介绍一下:前嗅ForeSpider中的IP代理设置,主要内容包括:启用IP代理,静态代理设置,动态代理设置,这三大部分。 具体内容如下: 一,启用IP代理 启用IP代理采集时,需...

2019/03/06 00:00

[博客] 前嗅ForeSpider教程:运行设置(一)

https://my.oschina.net/u/2691689/blog/3016713

今天,小编为大家详细介绍一下:前嗅ForeSpider运行设置中的采集速度,采集策略和任务装载,这三大模块。具体内容如下: 一,采集速度 采集速度是调节任务采集快慢的一项设置,对采集速度的影...

2019/03/01 00:00

[博客] 前嗅ForeSpider教程:采集58同城

https://my.oschina.net/u/2691689/blog/3005771

以58同城·便当为例,通过社保医疗链接到文章列表,由列表进入文章页采集正文数据: 第一步:新建任务 ①点击左上角“加号”新建任务,如图1: 【图1】 ②在弹窗里填写采集地址,任务名称,如...

2019/01/25 00:00

[博客] 前嗅ForeSpider脚本教程:标准对象(二)

https://my.oschina.net/u/2691689/blog/3024978

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的标准对象:采集文档类grabDoc,采集记录集类result,JavaScript操作类jScript、KeyForm操作类KeyForm,html标签属性类domAttr以及key...

2019/03/20 00:00

[博客] 前嗅ForeSpider教程:数据建表

https://my.oschina.net/u/2691689/blog/3014936

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项。主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改...

2019/02/26 00:00

[博客] 前嗅ForeSpider脚本教程:扩展对象(二)

https://my.oschina.net/u/2691689/blog/3026297

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的扩展对象:链接抽取类tmplLink,链接过滤类tmplFilter,数据抽取类tmplData,模板字段类tmplVal。具体内容如下: 一.链接抽取类tmplL...

2019/03/22 00:00

[博客] 前嗅ForeSpider脚本教程:运算符与运算顺序

https://my.oschina.net/u/2691689/blog/3021768

今天小编为大家介绍的是:前嗅ForeSpider脚本中的运算符和运算顺序,具体内容有:脚本支持的运算符、运算顺序、运算级别以及默认类型转换顺序。 一.ForeSpider脚本支持的运算符 1.一般运算符...

2019/03/13 00:00

[博客] 前嗅ForeSpider教程:字段的取值与清洗

https://my.oschina.net/u/2691689/blog/3015360

今天小编为大家带来的教程是:如何在前嗅ForeSpider中进行,字段的取值与清洗。主要内容包括:自动取值字段,取值的两个方法,和字段清洗方式。具体内容如下: 一,自动取值的字段包括哪些 ...

2019/02/27 00:00

[博客] 前嗅ForeSpider脚本教程:基础对象(三)

https://my.oschina.net/u/2691689/blog/3023949

今天,小编主要为大家介绍一下:前嗅ForeSpider脚本中的基础对象,主要内容包括:记录类record,记录集类records,数据表类dataTable,dataInRet类。具体内容如下: 一.记录类record record...

2019/03/18 00:00

[博客] 前嗅ForeSpider脚本教程-链接过滤脚本

https://my.oschina.net/u/2691689/blog/3037086

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接过滤脚本,应用场景,地址/标题过滤。具体内容如下: 一.应用场景 当可视化抽取到的链接包含不想要的链接地址时,需要进行过滤。...

2019/04/15 00:00

[博客] 前嗅ForeSpider采集配置界面介绍

https://my.oschina.net/u/2691689/blog/3006544

启动ForeSpider采集软件后,默认界面如图所示。ROOT任务下有已经配置好的示例模板,点击网站图标即可进行采集预览。可在任务列表选择某一任务按照需求重新配置。 【采集配置界面】 1.任务列表...

2019/01/28 00:00
返回顶部
顶部