快速开发爬虫系统的云框架 神箭手云爬虫

GPL
JavaScript
跨平台
2016-05-12
数据工厂

神箭手云爬虫是一个帮助开发者快速开发爬虫系统的云框架。神箭手提供上手简单,灵活开放的爬虫云开发环境,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。

神箭手的主要功能包括:

1、完全脚本化,只需要编写简单的js就可以爬取任何网站。提供丰富的开放接口,同时支持所有的js自带函数。

2、自带防屏蔽函数,包括代理ip、验证码识别等。

3、爬取的数据可以配置发布到CMS、数据库、excel文件等。

4、自带图表控件,方便开发者对爬取的数据进行图表分析,生成报告。

5、一站式云服务模式,一切操作只需要在神箭手后台进行,不需要下载软件,爬虫运行不停机。

的码云指数为
超过 的项目
加载中

评论(1)

数据抓取
数据抓取
寻找一个小团队做新闻客户端数据抓取,感兴趣可微信联系zx_wander

暂无资讯

1
回答
怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度

怎么把 Heritrix 后台整合到web项目中并且能改善Heritrix爬虫的速度,能用改善源代码吗

2016/10/10 13:35
1
回答
神箭手中,针对搜狗验证码怎么破解

想爬搜狗上微信的公众号,但是搜狗有反扒的功能,需要验证码识别。看了神箭手的文档,但是不是太理解。希望帮忙解答一下。

2016/06/29 21:42

没有更多内容

加载失败,请刷新页面

没有更多内容

网络爬虫入门教程(一):概述

简单介绍一下网络爬虫的几个基本点

2016/06/30 15:35
51
0
python开源爬虫框架scrapy源码解析(三)

从本节开始将介绍scrapy最核心的部分crawl命令的实现,通过crawl命令可以启动一个爬虫工程.接下来我将介绍scrapy的引擎、调度器、下载器等组件是如何协同工作的。

2016/03/30 22:14
317
1
神箭手云爬虫公开征集爬虫的活动说明

神箭手现向开发者征集爬虫脚本,采纳者可获得100元现金奖励!

2016/05/31 14:49
1K
2
Crawler4j的使用

爬虫

2016/06/07 16:34
619
1
为Heritrix定制自己的QueueAssignmentPolicy

Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQueues中时,总是先给予一个Key,然后将那些Key值相同的链接放在一起, 成为一个队列,也就是一个Queue。在Herit...

2016/08/07 17:02
17
0
node.js 爬网页中文问题

用node.js从Web上爬网页。涉及到三个步骤,取回来,分析内容,依照连接取更多。 https://github.com/sylvinus/node-crawler 把这个基础工作给做了。 但如何处理中文往往是一个小问题却成了障...

2016/08/01 15:01
43
0
scrapy 自定义command

scrapy 自定义command

2016/01/12 17:27
58
1
设置外部查找工具来索引 Confluence 6

任何网页的 crawler 工具都可以被用来索引你的 Confluence 站点中的内容。如果你希望注册用户才能够查看的内容也被索引的话,你需要为你的 Confluence 创建一个只被 crawler 使用的用户。将这...

2018/07/10 22:25
0
0
排名前50的开源爬虫

Top 50 open source web crawlers for data mining

2016/06/30 13:20
150
0
scrapy 爬取全站URL

以 oschina 为例: - 生成项目 ``` $ scrapy startproject oschina $ cd oschina ``` - 配置 编辑 settings.py, 加入以下(主要是User-agent和piplines): ``` USER_AGENT = 'Mozilla/5.0 (X11...

2016/04/14 22:11
2.6K
1

没有更多内容

加载失败,请刷新页面

返回顶部
顶部