分布式爬虫框架

分布式爬虫框架XXL-CRAWLER XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性; 特性 1、简洁:API直观简洁,可快速上手; 2、轻量级:底层实现仅强依赖jsoup,简洁高效; 3、模块化:模块化的结构设计,可轻松扩展 4、面向对象:支持通过注解,方便的映射页面数据到PageVO对象,底层自动完成PageVO对象的数据抽取和封装返回;单个页面支持抽取一个或多个...

相关文章

加载中

[软件] Cola - 分布式爬虫框架

https://www.oschina.net/p/cola

Cola是一个分布式爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。 依赖 首先,确保Python版本为2.6或者2.7(未...

[博客] 分布式爬虫框架XXL-CRAWLER

https://my.oschina.net/u/1046342/blog/1560163

分布式爬虫框架XXL-CRAWLER》 ![Maven Central](https://maven-badges.herokuapp.com/maven-central/com.xuxueli/xxl-crawler/)![GitHub release](https://github.com/xuxueli/xxl-crawle...

2017/11/03 00:00

[软件] xxl-crawler - 分布式爬虫框架

https://www.oschina.net/p/xxl-crawler

分布式爬虫框架XXL-CRAWLER XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性; 特性 1、简洁:API直观简洁,可快速上...

[博客] Go开发的分布式爬虫框架 yispider

https://my.oschina.net/u/2280301/blog/1554106

yispider一款分布式爬虫平台,帮助你更好的管理和开发爬虫。内置一套爬虫定义规则(模版),可使用模版快速定义爬虫,也可当作框架手动开发爬虫 .. 码云地址:https://gitee.com/bilibala/Yi...

2017/10/20 00:00

[资讯] XXL-CRAWLER v1.2.1 发布,分布式爬虫框架

https://www.oschina.net/news/93200

版本新特性 JS渲染:支持JS渲染方式采集数据,可参考 "爬虫示例6"; 抽象并设计PageLoader,方便自定义和扩展页面加载逻辑,如JS渲染等。底层提供 "JsoupPageLoader(默认/推荐)","HtmlUnit...

2018/02/08 00:00

[资讯] XXL-CRAWLER v1.2.0 发布,分布式爬虫框架

https://www.oschina.net/news/91522

XXL-CRAWLER v1.2.0 发布,新特性如下: 1、爬虫Builder底层API优化; 2、支持设置请求Headers; 3、支持设置多UserAgent轮询; 4、失败重试:支持请求失败后主动重试,并支持设置重试次数;...

2017/12/15 00:00

[资讯] XXL-CRAWLER v1.2.2 发布,分布式爬虫框架

https://www.oschina.net/news/101122

v1.2.2 新特性 1、系统底层重构,规范包名; 2、采集线程白名单过滤优化,避免冗余失败重试; 3、增强JS渲染方式采集能力,原生新提供 "SeleniumPhantomjsPageLoader",支持以 "selenisum +...

2018/10/24 00:00

[资讯] XXL-CRAWLER v1.1.0,面向对象的分布式爬虫框架

https://www.oschina.net/news/90389

XXL-CRAWLER v1.1.0 已发布,更新如下: 新特性: 页面默认cssQuery调整为html标签; 升级Jsoup至1.11.1版本; 修复PageVO注解失效的问题; 属性注解参数attributeKey调整为selectVal; 代理...

2017/11/08 00:00

[博客] 分布式爬虫

https://my.oschina.net/u/4264283/blog/3406925

分布式爬虫 什么是分布式爬虫 基于多台电脑组件一个分布式机群,然后让每一台电脑执行同一组程序,让后让他们对同一个网站的数据进行分布式爬取 为什么使用分布式爬虫 提示爬取数据效率 如何实...

2019/09/03 00:00

[博客] 分布式爬虫

https://my.oschina.net/u/4357815/blog/3432331

  分布式爬虫,可以让很多台电脑都使用同一个的爬虫程序,将爬虫分发得到多台电脑上,这样可以提高爬虫的速度,也就是分布式爬虫。   分布式爬虫需要专门的模块scrapy-redis,原生的scr...

2019/08/12 00:00

[博客] 分布式爬虫

https://my.oschina.net/u/4403012/blog/4001097

这个分布式爬虫是曾经自己和同学一起合作的,后来在这个基础上改进了一些特性,相同的仅仅是提供一个大概的思路。欢迎大家提出建议 功能简单介绍: 这个爬虫是一个可拓展的分布式爬虫。採用主...

2018/04/20 00:00

[博客] 分布式爬虫

https://my.oschina.net/u/4289331/blog/3831739

分布式爬虫 1、概览 该项目使用kafka和redis构建分布式爬虫集群。在多个spider实例间分发url的种子,这些请求通过redis进行协同。由于边界扩展或深度遍历的特点,任何其他抓取这些触发器的内...

2018/09/10 00:00

[博客] 爬虫(四)之分布式爬虫

https://my.oschina.net/u/4255011/blog/3709626

01-基于Redis的分布式爬虫(基于RedisCrawlSpider类) 分布式爬虫: scrapy-redis组件:专门为scrapy开发的组件。实现分布式爬取 start_urls = ['https://www.qiushibaike.com/pic/'] 调度器...

2018/12/20 00:00

[博客] 分布式爬虫

https://my.oschina.net/u/4405579/blog/3796613

一.分布式爬虫简介   1.介绍:     分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。比如爬虫A,B,C分别在三台服务器上,需要一个状态管理器集中分配,去重这三个爬虫的u...

2018/10/11 00:00

[博客] 分布式爬虫

https://my.oschina.net/u/4384785/blog/4229401

本篇导航: 介绍 scrapy-redis组件 一、介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬...

2018/02/05 00:00

[博客] 爬虫的本质是和分布式爬虫的关系

https://my.oschina.net/u/4297302/blog/3220187

爬虫的本质是什么 搞爬虫或者面试官总是觉得分布式爬虫是一个很牛逼的东西,认为只有会分布式爬虫才能体现一个爬虫工程师的最高技术水平,而不会分布式爬虫,则认为爬虫工程师的水平很菜,这...

04/05 00:00

[博客] 分布式爬虫与增量式爬虫

https://my.oschina.net/u/4260482/blog/3626068

一,分布式爬虫介绍 1.scrapy框架为何不能实现分布式?   其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共...

2019/03/05 00:00

[博客] 分布式爬虫管理框架Gerapy安装及部署流程

https://my.oschina.net/u/4332081/blog/3293447

Gerapy 是一款国人开发的爬虫管理软件(有中文界面)   是一个管理爬虫项目的可视化工具,把项目部署到管理的操作全部变为交互式,实现批量部署,更方便控制、管理、实时查看结果。 gerapy...

2019/07/04 00:00

[博客] 爬虫 - scrapy-redis分布式爬虫

https://my.oschina.net/u/4381879/blog/3917002

简介 Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule), 并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi...

2018/07/04 00:00

[博客] Scrapy - 分布式爬虫

https://my.oschina.net/u/4280052/blog/3654628

分布式爬虫 概念 所谓分布式, 多个程序同时对一个任务进行操作 一分多的高效率的任务进行方式 简单说明 一个 10GB 的爬虫任务, 交给10台服务器进行同时爬取 对比单服务器无论怎么优化都是 10...

2019/02/11 00:00
返回顶部
顶部