crawler爬虫管理工具

guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、 自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中 的注释及Log...

相关文章

加载中

[博客] Crawler 爬虫

https://my.oschina.net/u/4270399/blog/4031366

using Newtonsoft.Json;using System;using System.Collections.Generic;using System.IO;using System.Linq;using System.Text;using System.Threading.Tasks;using Crawler.Model; namespa...

2018/03/27 00:00

[软件] Ex-Crawler - 网页爬虫

https://www.oschina.net/p/ex-crawler

Ex-Crawler 是一个网页爬虫,采用 Java 开发,该项目分成两部分,一个是守护进程,另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。

[博客] 爬虫初探(二)解析crawler4j源码crawler包

https://my.oschina.net/u/2693668/blog/652149

本人也是菜鸟一枚,现在刚开始接触爬虫,想通过读别人的爬虫框架源码来了解下爬虫,如有错误,请见谅并指出。 继之前解析了crawler4j的robotstxt包之后,今天来让我们看看crawler包和excepti...

2016/04/03 00:00

[博客] 分布式爬虫框架XXL-CRAWLER

https://my.oschina.net/u/1046342/blog/1560163

《分布式爬虫框架XXL-CRAWLER》 ![Maven Central](https://maven-badges.herokuapp.com/maven-central/com.xuxueli/xxl-crawler/)![GitHub release](https://github.com/xuxueli/xxl-crawle...

2017/11/03 00:00

[软件] Crawler - 跨平台不写代码的爬虫

https://www.oschina.net/p/Crawler

Crawler基于Java开发的一款跨平台爬虫,可以使用Shell脚本和DOS命令进行任务式处理。 比如CR命令 使用一个Email正则就可以从贴吧中提取所有邮箱 使用Ci命令 爬取所有新闻 java -jar crawler....

[软件] xxl-crawler - 分布式爬虫框架

https://www.oschina.net/p/xxl-crawler

分布式爬虫框架XXL-CRAWLER XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性; 特性 1、简洁:API直观简洁,可快速上...

[博客] Scrapy框架Crawler模板爬虫

https://my.oschina.net/u/4388685/blog/3394701

1、创建一个CrawlerSpider 2、Rule规则 3、LinkExtractor提取器 示例(抓取微信小程序社区)

2019/09/17 00:00

[软件] Crawler4j - Java多线程Web爬虫

https://www.oschina.net/p/crawler4j

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。 示例代码: import java.util.ArrayList; import java.util.regex.Pattern; impo...

[博客] 爬虫初探(一)crawler4j的robots

https://my.oschina.net/u/2693668/blog/651051

最近刚刚开始研究爬虫,身为小白的我不知道应该从何处下手,网上查了查,发现主要的开源java爬虫有nutch apache/nutch · GitHub,Heritrix internetarchive/heritrix3 · GitHub和Crawler4j...

2016/03/31 00:00

[博客] java使用Crawler4j开发爬虫

https://my.oschina.net/u/3039639/blog/798512

爬虫开发中,常用的语言是python,但是也可以使用java来进行 开发,这样就可以利用java强大的库,下面就来介绍一下常用的java爬虫框架。 Crawler4j 官网:https://github.com/yasserg/craw...

2016/12/01 00:00

[博客] Crawler 不需要写代码的爬虫 不需要写正则的爬虫

https://my.oschina.net/u/2311702/blog/645748

Crawler V1.0.0 代码还没有优化 框架结构很简单 部分功能需要你们给我需求,我后期添加测试 操作指南 命令:java -jar Crawler.jar -[option] -v 爬虫的版本信息 -h 爬虫的帮助文档 -ct [url...

2016/03/23 00:00

[资讯] XXL-CRAWLER v1.2.0 发布,分布式爬虫框架

https://www.oschina.net/news/91522

XXL-CRAWLER v1.2.0 发布,新特性如下: 1、爬虫Builder底层API优化; 2、支持设置请求Headers; 3、支持设置多UserAgent轮询; 4、失败重试:支持请求失败后主动重试,并支持设置重试次数;...

2017/12/15 00:00

[博客] 利用crawler4j+jsoup作爬虫

https://my.oschina.net/u/2400848/blog/741154

main方法 爬虫方法 实体类 运行结果

2016/09/01 00:00

[软件] Smart and Simple Web Crawler - Web爬虫框架

https://www.oschina.net/p/smart+and+simple+web+crawler

Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置 过滤器限制爬回来的链接,默认...

[资讯] XXL-CRAWLER v1.1.0,面向对象的分布式爬虫框架

https://www.oschina.net/news/90389

XXL-CRAWLER v1.1.0 已发布,更新如下: 新特性: 页面默认cssQuery调整为html标签; 升级Jsoup至1.11.1版本; 修复PageVO注解失效的问题; 属性注解参数attributeKey调整为selectVal; 代理...

2017/11/08 00:00

[资讯] XXL-CRAWLER v1.2.1 发布,分布式爬虫框架

https://www.oschina.net/news/93200

版本新特性 JS渲染:支持JS渲染方式采集数据,可参考 "爬虫示例6"; 抽象并设计PageLoader,方便自定义和扩展页面加载逻辑,如JS渲染等。底层提供 "JsoupPageLoader(默认/推荐)","HtmlUnit...

2018/02/08 00:00

[资讯] XXL-CRAWLER v1.2.2 发布,分布式爬虫框架

https://www.oschina.net/news/101122

v1.2.2 新特性 1、系统底层重构,规范包名; 2、采集线程白名单过滤优化,避免冗余失败重试; 3、增强JS渲染方式采集能力,原生新提供 "SeleniumPhantomjsPageLoader",支持以 "selenisum +...

2018/10/24 00:00

[软件] SpiderAdmin - 爬虫项目可视化管理工具

https://www.oschina.net/p/spideradmin

SpiderAdmin,一个集爬虫 Scrapy+Scrapyd 爬虫项目查看 和 爬虫任务定时调度的可视化管理工具。 功能介绍 1. 对 Scrapyd 接口进行可视化封装,对 Scrapy 爬虫项目进行删除 和 查看 2. 并没有...

[博客] Laravel Symfony_Crawler GuzzleHttp 爬虫 抓取行政区域

https://my.oschina.net/u/555881/blog/1595998

2018/05/29 修改抓取编码gb2312改gb18030 项目需要行政区域三级联动,刚好写个爬虫练练手。 Laravel 框架,安装的两个库 创建表 创建对应Model AppModelArea.php AppModelCrawler.php app/Co...

2017/12/28 00:00

[软件] Hawk_Crawler - 数据采集和清洗工具

https://www.oschina.net/p/hawk-crawler

HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数...

返回顶部
顶部