spider-flow 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
spider-flow 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
授权协议 MIT
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开发厂商
地区 国产
提 交 者 小东c
适用人群 未知
收录时间 2019-08-29

软件简介

spider-flow,新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

特性

  •  支持Xpath/JsonPath/css选择器/正则提取/混搭提取
  •  支持JSON/XML/二进制格式
  •  支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
  •  支持爬取JS动态渲染(或ajax)的页面
  •  支持代理
  •  支持自动保存至数据库/文件
  •  常用字符串、日期、文件、加解密等函数
  •  支持插件扩展(自定义执行器,自定义方法)
  •  任务监控,任务日志
  •  支持HTTP接口
  •  支持Cookie自动管理
  •  支持自定义函数

插件支持 

  •  Selenium 插件
  •  Redis 插件
  •  Mongodb 插件
  •  Hbase 插件
  •  IP 代理池插件
  •  OCR 插件

部分截图 

爬虫列表

爬虫测试

Debug

日志

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (19)

加载中
能多线程?
10/04 01:11
回复
举报
不错的项目,支持,希望可以持续优化
08/31 12:42
回复
举报
没有qq群吗,可以拉个群试下
07/11 05:28
回复
举报
小东c软件作者
720832964
07/11 08:02
回复
举报
不错很好的设计理念。简洁高效,但是这有爬虫比赛,不限制语言!拿37000元现金大奖! 👉 https://jinshuju.net/f/ivkDfF 冲鸭! 不心动吗?
06/24 16:53
回复
举报
支持分布式采集吗
03/18 11:07
回复
举报
小东c软件作者
目前还不支持,不过可以通过redis插件间接实现。
03/18 11:34
回复
举报
能爬拼多多么
03/16 11:54
回复
举报
支持
2019/12/25 01:01
回复
举报
不可思议
2019/12/02 15:27
回复
举报
怎么用的?怎么部署的?
2019/10/24 16:32
回复
举报
小东c软件作者
官网有文档
2019/10/24 17:07
回复
举报
中文编码怎么实现转码?${string.newString(string.bytes(resp.html,'gb2312'),'utf-8')}无法实现转码
04/10 12:07
回复
举报
小东c软件作者
请求的地方设置编码为gb2312就行了。
04/10 12:18
回复
举报
怎么可以使用起来
2019/10/23 14:14
回复
举报
更多评论
发表了资讯
04/13 09:07

spider-flow 0.5.0 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫。 本次更新内容如下: 新增注释节点 新增字符串反转义函数 新增属性窗口切换靠右/靠底 新增消息通知功能(任务启动通知、任务停止通知) 新增自动重试功能 新增自动去重功能 新增流程历史版本记录 新增rest服务异步启动、查看状态、停止接口 新增长...

7
44
发表了资讯
04/02 10:42

spider-flow 0.4.3 发布,新增调试功能

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫。 本次更新内容: 新增页面在线调试功能 新增insertofPk 插入返回自增主键值 新增sql输出select为sqlRowSet流 新增线程提交策略配置(随机、顺序、子优先、父优先,默认随机) 新增传递变量设置 新增流转选项(异常流转、非异常流转、无论异常都流转)...

1
23
发表了资讯
03/23 09:00

spider-flow 0.4.2 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫。 更新内容: 新增版本更新检测 新增流程检测,保证流程可正常运行 修复撤销时 js 报错的 BUG 修复任务执行顺序不正确的问题 优化文档 Selenium插件 新增切换至 iframe 的方法 修复遍历 WebElements 时无法使用 selector/xpath 等函数的问题...

0
21
发表了资讯
03/18 10:32

spider-flow 0.4.1 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 新增ForkJoin执行器(用于等待之前的节点结束) 新增日志下载功能 #I1BQ35 新增docker部署 移除LoopJoin执行器,用ForkJoin代替 修复输出csv文件没有表头的问题 修复最大线程数为1时爬虫不执行的问题 修复strVar.xpath方法无法获取内容的问题 修复修复...

1
13
发表了资讯
03/16 11:29

spider-flow 0.4.0 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 新增自定义函数功能 新增输出节点支持输出至数据库或csv文件 新增获取元素节点和上级元素方法elementVar.subling()、elementVar.parent()、elementVar.parents()、elementsVar.parents() 修复日志文件内容为空的问题 #I1AXQK 修复输出时可...

0
12
发表了资讯
2019/12/26 11:02

spider-flow 0.3.2 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 修复前端日志不输出的BUG 修复前端日志滚动条不显示的问题 修复输出全部参数的未选中也输出的BUG 修复Cookie批量设置的BUG 修复任务未执行,查询日志失败的问题 优化插件描述 优化任务日志拆分文件 优化重启服务后,重置任务下一次执行时间...

2
25
发表了资讯
2019/12/23 10:29

spider-flow 0.3.1 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 新增Header、Cookies批量设置 新增变量、参数、输出、函数、header、cookie拖动调整执行顺序 新增插件功能描述及功能区显示 新增map.toList、list.sort、object.sleep函数 修复listVar.join中list.length为1时返回异常 修复下次执行时间计...

1
32
发表了资讯
2019/12/09 11:07

spider-flow 0.3.0 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 新增Cookie自动管理功能 新增resp.links()、resp.images()、resp.title函数 新增url批量下载,不用先爬取再下载 新增string.lastIndexOf、thread.sleep()、list.filterStr函数 新增多函数执行方法 新增任务状态、任务执行记录 修复爬虫名称...

0
43
发表了资讯
2019/11/18 10:15

spider-flow 0.2.1 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 2019年度最受欢迎中国开源软件评选,投一票给 spider-flow 吧,谢谢! 更新日志 新增selectOne方法,执行后返回Map对象 新增selectInt方法,执行后返回int 修复表达式在xxx${expr}格式中,expr为null时整个表达式返回null的问题 修复延迟计算不准确...

0
33
发表了资讯
2019/11/04 10:23

spider-flow 0.2.0 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 新增全局变量功能 新增爬虫搜索功能 新增List打乱函数 新增内置demo(爬取开源中国动弹) 修复等待节点在双重循环中表现与预期不一致的BUG 修复某些Header无法设置的问题 修复循环次数可能不对的BUG 优化表格输出样式与高亮显示 优化表格输...

3
46
发表了资讯
2019/10/30 10:56

spider-flow 0.1.0 发布,Java 开源爬虫平台

历时三个多月,第一个正式版发布 spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 现已有特性如下: 支持css选择器、正则提取 支持JSON/XML格式 支持Xpath/JsonPath提取 支持多数据源、SQL select/insert/update/delete/批量插入 支持爬取JS动态渲染的页面 支持代理 支持二进制格式、二进制流格式 ...

11
91
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/10/11 20:43

spider-flow 教程 | 第一篇: 把spider-flow运行起来

开始 注意:db/spiderflow.sql要手动导入到数据库,不会自动导入 数据库版本使用mysql5.7及以上 克隆 高版本Eclipse(建议使用) 版本:2018-12 官网下载地址:https://www.eclipse.org/downloads/download.php?...

0
1
发表了博客
2019/09/22 20:51

spider-flow爬虫之爬取开源中国动弹(一)

spider-flow 介绍 spider-flow是一款java开发的开源爬虫平台,其核心目标是以无需编写java代码实现爬虫 开源中国动弹请求接口分析 首先打开开源中国首页,点击顶部导航条"动弹"跳转至动弹广场:https://www.oschi...

0
3
发表了博客
2019/01/29 16:26

spider_keeper

      一 简介   spider_keeper 是一款开源的spider管理工具,可以方便的进行爬虫的启动,暂停,定时,同时可以查看分布式情况下所有爬虫日志,查看爬虫执行情况等功能。 二 安装 部署 安装环境 ubuntu16.04 python3.5 pip3 install scrapy pip3 install scrapyd pip3 install scrapyd-client pip3 install ...

0
0
发表了博客
2016/03/10 10:40

spider 介绍

spider 介绍

0
0
发表了博客
2019/05/12 17:35

Spider_selenium

json模块 什么是json? javascript中的对象和数组 对象:{key:value}取值:对象名.key 数组:[...,...]取值:数组[索引值] 作用 json格式的字符串和Python数据类型之间的转换 常用方法 json.loads():json格式 --> Python数据类型 json python 对象 字典 数组 列表 json.dumps() : Python数据类型 --> json格式 python jso...

0
0
发表于服务端专区
2016/09/21 15:12

spider代码理解

搜狗微信公众号基本信息爬虫 项目启动入口: package com.jiou; import com.jiou.support.SpringContextUtils; public class Bootstrap {   public static void main(String[] args) throws Exception {     SpringContextUtils.load("classpath*:/spring/context.xml");   } } 加载spring配置文件 : 初始化类和启动定时...

0
1
发表了博客
2019/08/14 19:23

scrapy框架之spider

爬取流程 Spider类定义如何爬取指定的一个或多个网站,包括是否要跟进网页里的链接和如何提取网页内容中的数据。 爬取的过程是类似以下步骤的循环: 1.通过指定的初始URL初始化Request,并指定回调函数。当Request下载完后,生成Response作为参数传给回调函数。初始的Request是通过start_requests()读取start_urls中的U...

0
0
发表于AI & 大数据专区
2018/06/12 21:41

Scrapy 1.5.0之Spider

爬虫原理 创建一个以百度为名的爬虫,其中spiders/baidu.py内容如下: # -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.b......

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
19 评论
370 收藏
分享
返回顶部
顶部