爬虫平台 spider-flow

爬虫平台 spider-flow

MIT
Java
跨平台
2019-08-29
小东c

介绍

spider-flow,新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

特性

  • 支持 css 选择器、正则提取
  • 支持 JSON/XML 格式
  • 支持 Xpath/JsonPath 提取
  • 支持多数据源、SQL select/insert/update/delete
  • 支持爬取 JS 动态渲染的页面
  • 支持代理
  • 支持二进制格式
  • 支持保存/读取文件(csv、xls、jpg 等)
  • 常用字符串、日期、文件、加解密等函数
  • 支持流程嵌套
  • 支持插件扩展(自定义执行器,自定义函数)
  • 支持 HTTP 接口

插件支持 

  •  Selenium 插件
  •  Redis 插件
  •  Mongodb 插件
  •  Hbase 插件
  •  IP 代理池插件
  •  OCR 插件

部分截图 

的码云指数为
超过 的项目
加载中

评论(8)

gavinking
gavinking
支持selenium,那你的项目本身能支持集群吗
安静聆听
安静聆听
持续关注,希望能坚持下去。
安静聆听
安静聆听
不错很好的设计理念。简洁高效,希望能出一些demo教程
小东c
小东c 软件作者
最近一直忙着优化和开发了,有时间会详细介绍各个组件的用法和demo的。
金木童子
我想付费咨询购买你这个爬虫技术可以吗
小东c
小东c 软件作者
当然可以啊
金木童子
你微信号多少啊
飘零剑客_
这个技术的花费多少钱?

暂无资讯

暂无问答

spider-flow爬虫之爬取开源中国动弹(一)

spider-flow 介绍 spider-flow是一款java开发的开源爬虫平台,其核心目标是以无需编写java代码实现爬虫 开源中国动弹请求接口分析 首先打开开源中国首页,点击顶部导航条"动弹"跳转至动弹广场...

09/22 20:51
65
0
Scrapy:Python的爬虫框架

网络爬虫是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。

2015/06/29 00:29
483
1
Scrapy的架构初探

Python即时网络爬虫启动的目标是一起把互联网变成大数据库。单纯的开放源代码并不是开源的全部,开源的核心是“开放的思想”,聚合最好的想法、技术、人员,所以将会参照众多领先产品,比如,...

2016/06/12 16:20
710
2
Scrapy学习笔记(一)

[TOC] Scrapy Study Note Scrapy学习笔记 IPython JupyterNotebook Anaconda 1. Basic Concepts 基础概念 1.1.Command line tool 命令行工具 1.2.Spiders 蜘蛛程序 1.3.Selectors 文本选择器...

2018/11/13 18:10
44
0
Scrapy -- 04

今天总算给老板完成了抓取任务。差点让允许域名和编码坑死。前面只是简单翻了一下官方的tutorial,然后今天就发现了:http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/overview.html。台...

2014/10/07 00:17
439
0
Scrapy 1.5.0之命令行

配置参数 系统层面: E:\Python 3.6.2\Lib\site-packages\scrapy\templates\project, 用户层面:~/.config/scrapy.cfg ($XDG_CONFIG_HOME) 及 ~/.scrapy.cfg ($HOME) 作全局设置 项目定义: ...

2018/06/11 14:46
88
0
解决 Scrapy-Redis 空跑问题,链接跑完后自动关闭爬虫

scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动停止程序,结束空跑。相信大家都很头疼,尤其是网上一堆搬来搬去的帖子,来看一下 我是如何解决这个...

2018/03/07 16:16
2.8K
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部