crawler框架

分布式爬虫框架XXL-CRAWLER XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性; 特性 1、简洁:API直观简洁,可快速上手; 2、轻量级:底层实现仅强依赖jsoup,简洁高效; 3、模块化:模块化的结构设计,可轻松扩展 4、面向对象:支持通过注解,方便的映射页面数据到PageVO对象,底层自动完成PageVO对象的数据抽取和封装返回;单个页面支持抽取一个或多个...

相关文章

加载中

[博客] 分布式爬虫框架XXL-CRAWLER

https://my.oschina.net/u/1046342/blog/1560163

《分布式爬虫框架XXL-CRAWLER》 ![Maven Central](https://maven-badges.herokuapp.com/maven-central/com.xuxueli/xxl-crawler/)![GitHub release](https://github.com/xuxueli/xxl-crawle...

2017/11/03 00:00

[软件] xxl-crawler - 分布式爬虫框架

https://www.oschina.net/p/xxl-crawler

分布式爬虫框架XXL-CRAWLER XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性; 特性 1、简洁:API直观简洁,可快速上...

[博客] Scrapy框架Crawler模板爬虫

https://my.oschina.net/u/4388685/blog/3394701

1、创建一个CrawlerSpider 2、Rule规则 3、LinkExtractor提取器 示例(抓取微信小程序社区)

2019/09/17 00:00

[资讯] XXL-CRAWLER v1.2.0 发布,分布式爬虫框架

https://www.oschina.net/news/91522

XXL-CRAWLER v1.2.0 发布,新特性如下: 1、爬虫Builder底层API优化; 2、支持设置请求Headers; 3、支持设置多UserAgent轮询; 4、失败重试:支持请求失败后主动重试,并支持设置重试次数;...

2017/12/15 00:00

[软件] Smart and Simple Web Crawler - Web爬虫框架

https://www.oschina.net/p/smart+and+simple+web+crawler

Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认...

[资讯] XXL-CRAWLER v1.1.0,面向对象的分布式爬虫框架

https://www.oschina.net/news/90389

XXL-CRAWLER v1.1.0 已发布,更新如下: 新特性: 页面默认cssQuery调整为html标签; 升级Jsoup至1.11.1版本; 修复PageVO注解失效的问题; 属性注解参数attributeKey调整为selectVal; 代理...

2017/11/08 00:00

[资讯] XXL-CRAWLER v1.2.1 发布,分布式爬虫框架

https://www.oschina.net/news/93200

版本新特性 JS渲染:支持JS渲染方式采集数据,可参考 "爬虫示例6"; 抽象并设计PageLoader,方便自定义和扩展页面加载逻辑,如JS渲染等。底层提供 "JsoupPageLoader(默认/推荐)","HtmlUnit...

2018/02/08 00:00

[资讯] XXL-CRAWLER v1.2.2 发布,分布式爬虫框架

https://www.oschina.net/news/101122

v1.2.2 新特性 1、系统底层重构,规范包名; 2、采集线程白名单过滤优化,避免冗余失败重试; 3、增强JS渲染方式采集能力,原生新提供 "SeleniumPhantomjsPageLoader",支持以 "selenisum +...

2018/10/24 00:00

[博客] App Crawler

https://my.oschina.net/u/4366751/blog/3250701

Google官方出了一款App遍历工具App Crawler。 文档:https://developer.android.google.cn/training/testing/crawler App Crawler工具是Android Jetpack的一部分,它可自动的运行你的App,不...

04/16 00:00

[博客] Crawler - Puppeteer

https://my.oschina.net/u/107833/blog/2049825

该博客属于私人博客,由于作者设置了权限,您没法阅读此文,请与作者联系。

2018/09/11 00:00

[博客] web crawler

https://my.oschina.net/u/1166300/blog/1928262

该博客属于私人博客,由于作者设置了权限,您没法阅读此文,请与作者联系。

2018/08/15 00:00

[博客] Crawler 爬虫

https://my.oschina.net/u/4270399/blog/4031366

using Newtonsoft.Json;using System;using System.Collections.Generic;using System.IO;using System.Linq;using System.Text;using System.Threading.Tasks;using Crawler.Model; namespa...

2018/03/27 00:00

[博客] 爬虫初探(二)解析crawler4j源码crawler包

https://my.oschina.net/u/2693668/blog/652149

本人也是菜鸟一枚,现在刚开始接触爬虫,想通过读别人的爬虫框架源码来了解下爬虫,如有错误,请见谅并指出。 继之前解析了crawler4j的robotstxt包之后,今天来让我们看看crawler包和excepti...

2016/04/03 00:00

[博客] Crawler(WebMagic)

https://my.oschina.net/u/98127/blog/704746

该博客属于私人博客,由于作者设置了权限,您没法阅读此文,请与作者联系。

2016/07/03 00:00

[博客] Crawler - Selenium

https://my.oschina.net/u/107833/blog/1936236

该博客属于私人博客,由于作者设置了权限,您没法阅读此文,请与作者联系。

2018/08/29 00:00

[博客] Crawler(Scrapy)

https://my.oschina.net/u/98127/blog/1599802

该博客属于私人博客,由于作者设置了权限,您没法阅读此文,请与作者联系。

2017/12/30 00:00

[博客] Crawler4j的使用

https://my.oschina.net/u/2671514/blog/688297

Crawler4j的使用 (以下内容全部为转载,供自己查阅用) 下载地址: http://code.google.com/p/crawler4j/ Crawler4j的使用 网上对于crawler4j这个爬虫的使用的文章很少,Google到的几乎没有...

2016/06/07 00:00

[软件] VW-Crawler - Java 爬虫框架

https://www.oschina.net/p/vw-crawler

VW-Crawler 背景 自己一直对爬虫比较感兴趣,大学的毕业论文也是一个爬虫项目(爬教务处信息,然后做了个Android版教务管理系统,还获得了优秀毕业设计的称号),自那以后遇到自己感兴趣的网站...

[问答] npm install node-crawler

https://www.oschina.net/question/213622_193569

npm install node-crawler 的时候出现 WIN7 64位 LINK : fatal error LNK1181: cannot open input file 'kernel32.lib' 错误...

2014/11/20 00:00

[软件] Ex-Crawler - 网页爬虫

https://www.oschina.net/p/ex-crawler

Ex-Crawler 是一个网页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。

返回顶部
顶部