EasySpider 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
EasySpider 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
EasySpider 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 GPL
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 国产
投 递 者 天际青年
适用人群 未知
收录时间 2023-05-22

软件简介

EasySpider是一款完全免费和开源的可视化爬虫软件,此软件可以让大家使用图形化界面,无代码可视化的设计和执行爬虫任务。

只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和执行。同时软件还可以直接在命令行中通过传参的方式执行,从而可以很方便的嵌入到其他系统中。

V0.3.0版本新增的功能,包括下载图片,元素截图,执行任意JS指令和系统命令,通过JS代码进行条件判断,OCR识别等等功能,想要的功能应有尽有,而且这些功能完全免费!!!

以下是示例界面:

下载 EasySpider

进入Releases Page:https://github.com/NaiboWang/EasySpider/releases 下载最新版本。

视频教程

1. EasySpider介绍 - 中国地震台网采集案例:https://www.bilibili.com/video/BV1Fk4y1L7xX/

2. 如何无代码可视化的爬取需要登录才能爬的网站 - 知乎网站案例:https://www.bilibili.com/video/BV1HV4y1r7v8

3.【重要】自定义条件判断之使用循环项内的JS命令返回值:https://www.bilibili.com/video/BV1mu411x7Nn/

4. 流程图执行逻辑解析 - 58同城房源描述采集案例:https://www.bilibili.com/video/BV1YL411z7uW

5. MacOS系统设计和执行eBay网站爬虫任务教程:https://www.bilibili.com/video/BV1WL411h71r

6. 如何执行自己写的JS代码和系统代码 (自定义操作):https://www.bilibili.com/video/BV1qs4y1z7Hc/

7. 如何自定义循环和判断条件 - 第一弹:https://www.bilibili.com/video/BV1Ys4y1z777/

8. 如何对元素和网页截图及命令行执行指南:https://www.bilibili.com/video/BV1dV4y1z764/

9. OCR识别元素内容功能:https://www.bilibili.com/video/BV1xz4y1b72D/

10. 如何爬需要输入验证码的网站:https://www.bilibili.com/video/BV18c411K7FH

11. 如何切换IP池和使用隧道IP - 打开详情页采集案例:https://www.bilibili.com/video/BV1KT411t79n

文档

请点此进入教程文档,如有英文可暂时翻译一下,或看作者的硕士毕业论文(主要看第三章和第五章)。

Documentation can be found from GitHub Wiki.

为什么要用EasySpider

相比其他可视化爬虫软件,EasySpider有以下优势:

1. 代码开源,因此可以进行二次开发。

2. 完全免费,不同于八爪鱼等软件的“免费”,EasySpider是一个无需登录,无限多开,无限机器部署的软件,不需要向作者本人支付一分钱。(当然,EasySpider受到专利保护,因此如果要商用,还请联系浙江大学天道专利事务所)。相比之下,其他软件的免费有诸多限制,具体可以看他们的价格详情页。

3. 安全,所有信息完全保存在用户本地,包括任务和采集的数据,不用担心数据泄露问题。

4. 跨平台:同时支持Windows,Linux和MacOS。

5. 速度快,通常一个爬虫任务只需要2-5分钟即可设计完成,采集速度也快,通常取决于具体机器环境。

6. 更加灵活,保存的浏览器配置信息更多,最重要的是可扩展,自由的安装各种插件,比如验证码识别插件。

7. 可以直接以命令行的方式执行,无限部署在任何想要部署的机器中。

8. 可以在任务流程中执行自定义的指令,包括JavaScript指令以及系统级别指令,这个是目前所有的可视化爬虫软件都做不到或者不愿意做的事情。

9. V0.3.0版本新增的功能,包括元素截图,执行任意JS指令和系统命令,OCR识别等等功能,想要的功能应有尽有,而且这些功能完全免费!!!

从需求导向来说,爬虫算是一项基本的需求,我们经常需要去爬一些网上的信息,比如对于科研工作者,爬取维基百科语料库进行训练是做NLP的同学经常做的事情;做社交网络分析的同学经常需要爬取Twitter和微博的信息;做推荐系统的同学会去爬购物网站的信息等等。市面上爬虫需求很多,这里就不在赘述了。有了EasySpider,不管大家之前会不会写爬虫,现在都可以不需要费心费力的写代码了。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击加入讨论🔥(2) 发布并加入讨论🔥
暂无内容
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
2 评论
124 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部