加载中

Ferret - 声明式 Web 爬虫系统

Ferret 是一个声明式的 Web 爬虫系统,旨在简化网络上的数据提取,以用于 UI 测试、机器学习和分析等等。 Ferret 拥有自己的声明式语言,通过抽象出技术细节和底层技术的复杂性,从而...

收藏 44
更新于 2018/10/11

AiPa - Java 多线程爬虫框架

一款小巧、灵活的Java多线程爬虫框架(AiPa) 1.框架简介 AiPa 是一款小巧,灵活,扩展性高的多线程爬虫框架。 AiPa 依赖当下最简单的HTML解析器Jsoup。 AiPa 只需要使...

收藏 58
更新于 2018/10/05

CrawlerForReader - Android 本地网络小说爬虫

CrawlerForReader Android 本地网络小说爬虫,基于 jsoup 与 xpath,通过模版解析网页。 支持书源 模版示例 调用方式 ScreenShot 支持书源 /** ...

收藏 12

grab_huaban_board - 花瓣网下载工具

grab_huaban_board 花瓣网下载工具是一个用户脚本,用来批量抓取花瓣网用户画板的高清原图,支持PC与Mobile,并可以选择通过不同方式下载到本地。 解析 查看analyze.tx...

收藏 2

VW-Crawler - Java 爬虫框架

VW-Crawler 背景 自己一直对爬虫比较感兴趣,大学的毕业论文也是一个爬虫项目(爬教务处信息,然后做了个Android版教务管理系统,还获得了优秀毕业设计的称号),自那以后遇到自己感兴趣的...

收藏 12

NowView - Android 图文精选 APP

Jsoup + MaterialViewPager + RxJava2 + Retrofit + Lifecycle + Realm + Fresco + Retrolambda example...

收藏 3

Douyin-Bot - Python 抖音机器人

Douyin-Bot 是一个用 Python 和 ADB 打造的 Python 抖音机器人。 特性 自动翻页 颜值检测 人脸识别 自动点赞 自动关注 随机防 Ban 原理 打开《抖音短视频》AP...

收藏 68
更新于 2018/05/30

ProxyIpPool - 爬虫代理 IP 池

ProxyIpPool 是一个爬虫代理 ip 池,主要用途爬取代理 ip ,然后将这些代理 ip 放入池子里(池子是某个数据结构的概念,比如我用的是队列)进行维护。 为什么需要维护呢?因为大多数...

收藏 14

Colly - 简单快速的 Web 爬虫框架

Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归...

收藏 6
Colly

finndycloud - 开源分布式云采集工具化引擎

发源地开源云采集引擎 发源地云采集引擎是由发源地研发团队开发的一套开源分布式云采集工具化引擎,致力于让用户快捷挖掘大数据矿山背后的价值! 发源地云采集引擎完全基于云端,集数据采集、清洗、去重、加...

收藏 13

XCrawler - 轻量级的 PHP 爬虫框架

XCrawler - 轻量级、易维护的PHP爬虫框架 特性: 极易上手,具备完善的文档和示例 支持多并发爬取 支持基于 xpath、css 选择器解析内容 模拟浏览器行为,如 user-agen...

收藏 7

skycaiji - 基于 PHP 的数据采集发布爬虫系统

蓝天采集器(skycaiji)是一款免费的数据采集发布爬虫软件,采用php+mysql开发,可部署在云服务器,几乎能采集所有类型的网页,无缝耦合各类CMS建站程序,免登录实时发布数据,全自动无需...

收藏 39

BeiJingSubwayFlows - 北京地铁客流量统计工具

北京地铁客流量统计(py爬虫+js统计图) 很好奇北京地铁每天的客流量变化,于是写了个爬虫。结果很有意思,每周7天的客流变化都很规律。 结果: https://www.ikaze.cn/sub_...

收藏 8

Node-cnblogs-spider - 基于 Node 实现的爬虫

spider_cnblogs spider_cnblogs 是专门爬取博客园的文章并自动将文章转成 .md 存储至本地的爬虫。 安装 npm install node-cnblogs-spide...

收藏 3

vscrawler - 适合抓取封堵的爬虫框架

VSCrawler是一个适合用作抓取的爬虫框架,在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大,让他可以灵活的应对目标网站的反爬虫策略。为了方便描述,文档中可能使用V...

收藏 33
更新于 2018/05/14
开源软件作者
葡萄城技术团队
活字格 - layUI日期选择插件 作者
xknaan
B-JUI 作者
狮子的魂
Jcseg 作者

Zicada - 爬虫规则录制客户端

Zicada系统最基本的功能就是录制爬虫抓取的页面规则。将抓取规则划分为登录页、列表页、详情页以及翻页,自由定制。 Zicada系统分为本地模式和远程模式。 Zicada 系统的 exe 免安装...

收藏 3

Beats - 轻量型数据采集器

Beats 是一款轻量级的数据采集器,采用 Go 语言编写。它集合了多种单一用途数据采集器。这些采集器安装后可用作轻量型代理,从成百上千或成千上万台机器向 Logstash 或 Elastics...

收藏 137
更新于 2017/11/16
Beats

xxl-crawler - 分布式爬虫框架

分布式爬虫框架XXL-CRAWLER XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性; 特性 1、简洁:AP...

收藏 109
更新于 2018/10/24

Scrapy-Python - 网站爬虫框架库

scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家、瓜子、链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrap...

收藏 38

nspider - Node 版的轻量级爬虫框架

nspider node版的轻量级爬虫框架 特性: 在服务端进行dom处理,默认使用的jquery语法 请求控制 优先请求队列 兼容node4.x或更高版本 快速开始 如何安装 $ npm in...

收藏 4

没有更多内容

加载失败,请刷新页面

返回顶部
顶部