spider-flow 0.1.0 发布,Java 开源爬虫平台

小东c
 小东c
发布于 2019年10月30日
收藏 91

历时三个多月,第一个正式版发布

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫

现已有特性如下:

 • 支持css选择器、正则提取
 • 支持JSON/XML格式
 • 支持Xpath/JsonPath提取
 • 支持多数据源、SQL select/insert/update/delete/批量插入
 • 支持爬取JS动态渲染的页面
 • 支持代理
 • 支持二进制格式、二进制流格式
 • 支持保存/读取文件(csv、xls、jpg等)
 • 常用字符串、日期、文件、加解密等函数
 • 支持流程嵌套
 • 支持插件扩展(自定义执行器,自定义函数)
 • 支持HTTP接口

已有插件如下:

 • selenium 插件
 • redis 插件
 • mongodb 插件
 • IP代理池 插件
 • OCR 识别插件
 • OSS 插件
 • 电子邮箱 插件

部分截图:

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 OSCHINA 社区 [http://www.oschina.net]
本文标题:spider-flow 0.1.0 发布,Java 开源爬虫平台
加载中

精彩评论

B
Bingou211
面向监狱编程
小东c
小东c
有点慌...
开源中国首席大弟子
开源中国首席大弟子
面向监狱编程

最新评论(11

郑泽鹏
郑泽鹏
看了之后不敢写爬虫了
开源中国首席罗纳尔多
开源中国首席罗纳尔多
您好,请问爬了数据放在哪里?
小东c
小东c
看情况啊,数据库,redis,mongodb,es,文件都可以
B
Bingou211
面向监狱编程
h
htdp
这个有点厉害。。。。
开源中国首席大弟子
开源中国首席大弟子
面向监狱编程
小东c
小东c
有点慌...
胜天壹子
胜天壹子
大佬杠杠的
范海辛z
这种图形化flow是有什么插件吗
小东c
小东c
用的是mxgraph
乐皮
乐皮
支持
返回顶部
顶部