数据采集和清洗工具 Hawk_Crawler

GPL
C#
跨平台
2016-07-20
desertfire

HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。

Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。

HAWK使用C# 编写,其前端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。

GitHub地址:https://github.com/ferventdesert/Hawk

其Python等价的实现是etlpy:http://www.cnblogs.com/buptzym/p/5320552.html

笔者专门为其开发的工程文件已公开在GitHub:https://github.com/ferventdesert/Hawk-Projects

使用时,点击文件,加载工程即可加载。不想编译的话,可执行文件在:https://github.com/ferventdesert/Hawk/tree/master/Versions

编译路径在: Hawk.Core\Hawk.Core.sln

2.gif-3330.9kB

以获取大众点评的所有北京美食为例,使用本软件可在10分钟内完成配置,在1小时之内自动并行抓取全部内容,并能监视子线程工作情况。而手工编写代码,即使是使用python,一个熟练的程序员也可能需要一天以上:

1.gif-1001.8kB

视频演示,复杂度由小到大:

加载中

评论(1)

w
wocawoca
不错不错

暂无资讯

暂无问答

13个.Net开源的网络爬虫

1:.Net开源的跨平台爬虫框架 DotnetSpider Star:430 DotnetSpider这是国人开源的一个跨平台、高性能、轻量级的爬虫软件,采用 C# 开发。目前是.Net开源爬虫最为优秀的爬虫之一。 请点击此处...

2018/06/29 22:28
99
0
创建非root用户的简单crontab计划任务

[tiger@PORTAL hawk-0.6.22]$ crontab -e 然后输入:*/5 * * * * /home/tiger/hawk-0.6.22/bin/rebuild.sh //每5分钟执行一次 参考资料:http://my.oschina.net/lgc/blog/5322 http://my.osc...

2012/04/19 14:59
2.4K
0
hawk -- pacemaker web GUI

Hawk为Pacemaker集群资源管理器管理的高可用性集群提供Web界面。该项目的当前目标是为HA集群提供完整的管理界面,包括灵活的REST API以及使用API的现代客户端前端。 项目github地址: https:...

2018/08/27 17:50
8
0
python开源爬虫框架scrapy源码解析(三)

从本节开始将介绍scrapy最核心的部分crawl命令的实现,通过crawl命令可以启动一个爬虫工程.接下来我将介绍scrapy的引擎、调度器、下载器等组件是如何协同工作的。

2016/03/30 22:14
317
1
Crawler4j的使用

爬虫

2016/06/07 16:34
618
1
为Heritrix定制自己的QueueAssignmentPolicy

Heritrix使用了Berkeley DB来构建链接队列。这些队列被置放于BdbMultipleWorkQueues中时,总是先给予一个Key,然后将那些Key值相同的链接放在一起, 成为一个队列,也就是一个Queue。在Herit...

2016/08/07 17:02
17
0
node.js 爬网页中文问题

用node.js从Web上爬网页。涉及到三个步骤,取回来,分析内容,依照连接取更多。 https://github.com/sylvinus/node-crawler 把这个基础工作给做了。 但如何处理中文往往是一个小问题却成了障...

2016/08/01 15:01
42
0
网络爬虫入门教程(一):概述

简单介绍一下网络爬虫的几个基本点

2016/06/30 15:35
51
0
scrapy 自定义command

scrapy 自定义command

2016/01/12 17:27
58
1
Javascript资源收集(1)

完美的网络访问库,基于Node.js的风格基于回调的API进步事件,文本和二进制文件的上传和下载,部分缓解身体,请求和响应头,状态的客户端库代码。

2014/11/20 16:25
39
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部