加载中

INFO-SPIDER - 爬虫工具箱

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解...

收藏 90
更新于 2020/09/13
INFO-SPIDER

Crawlab Lite - 爬虫管理平台

Crawlab 的轻量版本,基于 Golang 的爬虫管理平台,支持任意语言编写的爬虫。 相比较 Crawlab,该版本专注于单机上的爬虫管理,平台运行不依赖任何的外部数据库,去除了大量非必要功...

收藏 34
更新于 2020/07/15

novelTools - 小说下载和在线阅读工具

小说工具 novelTools 是一款小说下载和在线阅读的爬虫工具。他可以让我们收藏自己喜欢的小说,实现本地化的、无广告的畅读体验。 它采用 Pyhon Scrapy 框架,实现了小说信息采集,...

收藏 23

robotstxt-rust - 基于 Rust 的 robots.txt 解析器

robotstxt-rust 用 Rust 实现了谷歌的 robots.txt 解析器 robotstxt。 特点如下: 原生Rust代码实现,不依赖任何第三方库 0 unsafe代码 保留所有...

收藏 2

SpiderAdmin - 爬虫项目可视化管理工具

SpiderAdmin,一个集爬虫 Scrapy+Scrapyd 爬虫项目查看 和 爬虫任务定时调度的可视化管理工具。 功能介绍 1. 对 Scrapyd 接口进行可视化封装,对 Scrapy ...

收藏 43

vsplider - 影视资源库

影视资源库(站点+采集)。采用 python 语言,基于 tornado 框架、MySql 数据库(peewee 模块操作 mysql),自带网络爬虫程序。 基于layui的管理后台

收藏 31

2019nCoV-Crawler - 新型肺炎疫情数据爬虫

爬冠状病毒新型肺炎疫情实时数据+数据持久化+邮件通知。 数据源来自“丁香园” :https://3g.dxy.cn/newh5/view/pneumonia_peopleapp?from=tim...

收藏 3

http-proxy-pool - 网站代理工具

http-proxy-pool 是一个流量代理工具。 对于代理地址,期望是越多越好,但是对于代理质量有着更高的要求,宁缺勿滥,因此proxy-pool不再将抓取到的代理地址保存至数据库,而调整为...

收藏 16

wind-bell - 轻量级的爬虫工具

wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不...

收藏 181
更新于 2020/10/10

Dodder - 分布式 DHT 网络爬虫

________ _________________ ___ __ \___________ /_____ /____________ __ / / / __ \ __...

收藏 15

GNE-JS - 新闻网页正文通用抽取器

GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。 在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。 该项目启发...

收藏 14

GNE - 新闻网页正文通用抽取器

GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。 在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。 最后的输出效果如...

收藏 160
更新于 2019/09/27

spider-flow - 爬虫平台

spider-flow,新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。 特性 支持Xpath/JsonPath/css选择器/正则提取/混搭提取 支持JSON/XML/二进制格...

收藏 370
更新于 2020/04/13
spider-flow

Crawlab - 分布式爬虫管理平台

Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。 安装 三种方式: Docker(推荐)...

收藏 419
更新于 2020/07/31

Blog-Hunter - 基于 webMagic 的博客爬取工具

Blog-Hunter(博客猎手),基于 webMagic 的博客爬取工具,支持慕课、csdn、iteye、cnblogs、掘金和 V2EX 等各大主流博客平台。 主要功能 多个平台:该项目内置...

收藏 22
Blog-Hunter
开源软件作者
WANGFRAME 作者
Rop 作者

jfinal_jsoup_meinvtu - JFinal+JSoup 开发的爬虫

去年,做了几个JFinal项目,大量使用了Java爬虫去全网抓取数据,清洗筛选后入库,成为本地结构化数据。 Java中JSOUP做HTML解析是最好的工具,没有之一。 之前听过一句话,大体意思就...

收藏 29

Botsonar Openresty Lua - 智能反爬虫 Lua 插件

简介 Botsonar 一款企业使用的反爬虫管理平台。该平台集爬虫发现,策略,防御,流量分析于一体,目前处于 Alpha 测试版本,开源测试版本为旁路分析模式。 站点概览 防御和威胁分类 攻击 ...

收藏 15

Scrapyd - 运行 Scrapy 爬虫的守护进程

Scrapyd 是一个部署和运行 Scrapy 爬虫的应用,它允许使用 HTTP JSON API 部署 Scrapy 项目并控制其爬虫。

收藏 3

gugu - 金融/投资领域数据分析及量化工具

gugu(股估) 0.1.8版本已于2020年4月20日发布 gugu(股估)是适用于金融/投资领域数据分析及量化工程的开源项目,通过对互联网上的公开数据进行采集、清洗和存储,完成了对股票/债券...

收藏 42

GoldDataSpider - 网页数据抽取工具

GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。 该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报...

收藏 114
更新于 2019/03/18

没有更多内容

加载失败,请刷新页面

返回顶部
顶部