Pholcus 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Pholcus 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Pholcus 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Pholcus 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Pholcus 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

已删除源码

展开阅读全文

代码

评论 (18)

加载中
打分: 力荐
该评论暂时无法显示,详情咨询 QQ 群:912889742
打分: 推荐
单机用还可以,其他有待优化。
2017/07/19 10:32
回复
举报
打分: 力荐
满分
2017/06/02 12:04
回复
举报
该评论暂时无法显示,详情咨询 QQ 群:912889742
没写 license #Pholcus#
2015/06/22 08:39
回复
举报
必须要支持! #Pholcus#
2015/06/22 10:55
回复
举报
紧紧是download页面还是可以parse数据?并发限制的是针对网站的还是爬虫客户端? #Pholcus#
2015/06/22 11:06
回复
举报
厉害! #Pholcus#
2015/06/22 14:21
回复
举报
支持Mac么? #Pholcus#
2015/06/22 17:54
回复
举报
用什么写的界面? #Pholcus#
2015/06/23 08:57
回复
举报
更多评论
发表了资讯
2016/09/26 00:00

Pholcus 1.2 发布,高并发、分布式爬虫软件

Pholcus爬虫软件发布1.2版本,CPU使用率与内存占用均有大幅降低,运行更加稳定流畅。同时新增kafka输出方式,加快任务终止速度(秒级延时)。 Pholcus v1.2 具体更新细节如下: 一、输出功能升级 添加kafka数据库输出 基本重新了mysql输出模块,提升输出稳定性与输出效率 增加输出文件目录的配置项 大量优化结果收集模块,提升I/O性能与状态控制性 移除文件输出目录的日期后缀 调整文件名哈希临界长度为>8 移除数据输出通道容量...

8
38
发表了资讯
2016/06/16 00:00

Pholcus(幽灵蛛)爬虫软件 v1.0 稳定版正式发布

自2015年5月 Pholcus 发布第一个版本起历经一年的版本迭代,今日 v1.0 稳定版本终于正式发布了。在此感谢所有关注过Pholcus、反馈过开发建议以及运行bug的朋友们。v1.0 版本是一个经过诸多用户使用与项目验证过的稳定版本,大家可以放心下载使用。同时需要说明的是,此前某些用户提出的部分开发建议并未加入v1.0中,但将会在之后的版本逐步实现。 (GUI版模式选择界面) (WEB 版单机模式运行界面) Pholcus的简介: Pholcus(幽灵...

20
133
发表了资讯
2016/03/23 00:00

高并发、分布式爬虫 Pholcus 0.8.5 发布

Pholcus 0.8.5 发布,此版本优化多项功能(如新增cmd版服务端、客户端,细化历史记录粒度等)、修复多个bug,并减少诸多依赖包,为发布1.0稳定版做准备。 Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取...

18
92
发表了资讯
2016/03/03 00:00

Pholcus 爬虫 v0.8.2,性能提升 20% 以上

Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。 V0.8.0版本更新如下: 移除Response; 重构Context,同时增加Context.GetCookie()方法; 重构mgo...

9
153
发表了资讯
2016/01/20 00:00

Pholcus 爬虫 v0.8.0,支持 HTML 风格动态规则

近日,Pholcus 升级 v0.8.0 版本了,最大的亮点就是:终于突破规则需要静态编译的局制,增加支持HTML风格的动态规则。以后交流分享规则变得更加方便,随之而来将会是愈加完善的生态圈。 以下是具体更新内容: 一、初步支持HTML风格的动态规则 二、添加配置文件,便于修改数据库配置等信息 三、重新规划软件依赖文件目录 ├─pholcus 软件 │ ├─pholcus 依赖文件目录 │ ├─pholcus.ini 配置文件 │ │ │ ├─proxy.lib 代理...

16
64
发表了资讯
2015/12/03 00:00

Pholcus 0.7.5 发布,Go 爬虫软件

Pholcus 0.7.5 发布,更新如下: 大量功能优化: 一、规则模块更新: 1. 封装Spider与Response为上下文Context,大大简化规则语法; 2. 支持从Context获取上一次Request,并可在修改后作为新请求加入队列,从而节约内存(如有依赖Request的Temp值的Output操作,则应先Output再修改Request); 3. 自动为每条未设置Referer的请求补填Referer; 4. Keyword作为命名空间时,如过长则取其hash值; 4. 更新公共方法集。 二、调度器更...

3
37
发表了资讯
2015/11/11 00:00

Pholcus 0.7.4 发布,Go 爬虫软件

Pholcus 0.7.4 发布,更新如下: Spider中添加Namespace func(*Spider) string与SubNamespace func(self *Spider, dataCell map[string]interface{}) string两个字段,实现自定义数据库、表单及文件的名称 简化数据库配置信息 mongodb输出中,将采集结果字段直接作为数据存储字段,便于检索 更新计时器等spider中公用方法 可通过DownloaderID指定下载器,其中phantomjs下载支持请求中定义js,用法Request.Temp["JS"]=js编码(请...

0
26
发表了资讯
2015/10/21 00:00

Pholcus 0.7.3 发布,Go 爬虫软件

Pholcus 0.7.3 发布,更新内容如下: 全面升级 一、界面升级: 1. Windows下编译时自动添加图标 2. web及cmd版的命令行窗口添加软件名称 二、下载器相关升级: 1. 初步增加PhantomJS下载器,实现双下载引擎,可在请求中指定 2. 下载控制转移至Request中,从而下载更灵活 3. Request增加重定向跳转次数控制功能 4. Request可以支持无限重载 5. Request增加序列化方法 6. 下载器实例改为全局唯一 三、规则语法升级: 1. 文本结果输...

7
57
发表了资讯
2015/08/20 00:00

Pholcus 0.6.1 发布,Go 爬虫软件

Pholcus 0.6.1 发布,更新内容如下: 调整spider结构体,规范命名,精简方法; 拓展Teleport Socket API; 新增大量采集规则实例; 解放规则库,用户可以自由指定规则库; 不再直接提供main包,用户可以创建自己的项目。 更多信息及下载页面请点这里。 Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支...

3
31
发表了资讯
2015/08/12 00:00

Pholcus 0.6.0 发布,Go 爬虫软件

Pholcus 0.6.0 发布,更新内容如下: 新增web操作界面(已支持web/gui/command三种界面); 支持运行模式热切换。 下载器支持固定UserAgent,自动保存cookie模式; 下载器支持随机大量常用UserAgent,禁用cookie模式; 下载器添加url自动转码功能; 优化app等模块,接口对接更加灵活简单。 更多内容请查看软件主页。 下载:Source code (zip) Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规...

2
48
发表了资讯
2015/08/07 00:00

Pholcus 0.5.2 发布,Go 爬虫软件

Pholcus 0.5.2 发布,更新内容如下: spider模块更加灵活,支持动态Rule及动态OutFeild; 优化mysql输出; 优化下载模块; 优化百度及淘宝搜索规则; 优化去重功能。 更多内容请查看软件主页。 下载:Source code (zip) Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考...

2
21
发表了资讯
2015/07/29 00:00

Pholcus 0.5.1 发布,Go 爬虫软件

Pholcus 0.5.1 发布,更新内容如下: 添加mysql输出; 简化添加输出方式的步骤; 优化json字符串输出; 改进调度器,提升纵向抓取效率; 修复因第三方包walk的更新导致单机模式无法启动的问题; 添加简单的单机模式命令行操作; 其他一些小的改进。 更多内容请查看软件主页。 下载地址: Source code (zip) Source code (tar.gz) Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高...

2
38
发表了资讯
2015/07/17 00:00

Pholcus 0.5.0 发布,Go 爬虫软件

Pholcus 0.5.0 发布,新增支持图片、视频等文件下载功能。 更多内容请查看软件主页。 下载地址请点这里。 Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。

4
33
发表了资讯
2015/07/15 00:00

Pholcus 0.4.8 发布,Go 爬虫软件

Pholcus 0.4.8 发布,这个版本添加页码下载成功数与失败数监控。 更多内容请查看软件主页。 下载地址请点这里。 Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。

7
49
发表了资讯
2015/06/25 00:00

Pholcus 0.3.2 发布,Go 爬虫软件

Pholcus 0.3.2 发布,这是个预览版本,解决分布式模式下,socket粘包问题,以及其他一些优化。 更多内容请查看软件主页。 下载请点:Source code (zip) Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。...

6
40
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于服务端专区
2016/11/22 10:47

Go 爬虫软件 Pholcus

Pholcus Pholcus(幽灵蛛)是一款纯Go语言编写的支持分布式的高并发、重量级爬虫软件,定位于互联网数据采集,为具备一定Go或JS编程基础的人提供一个只需关注规则定制的功能强大的爬虫工具。 它支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;另外它还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取...

0
1
发表了博客
2016/09/02 23:19

[Pholcus爬虫] 应对网站反爬虫的多项策略

Pholcus应对网站反爬虫的核心思想就是:模仿人工操作 具体应对策略如下: 两次请求之间进行随机暂停 ,该时间可以在操作界面设置 当不需缓存cookie时,设置Spider.EnableCookie=true,下载器将会自动更换User-Agent 支持代理IP,其可以在操作界面设置更换IP的时间频率 自动添加请求头的Referer信息 下载器除Go原生内核外,还提供了PhantomJS内核,它可以直接提交含有一些隐蔽、加密的请求参数,提供请求通过率 规则内可以通过主...

0
0
发表了博客
2016/09/02 10:44

[Pholcus爬虫] 实现一个简单的下载文件的动态规则

Pholcus爬虫的动态规则使用 .pholcus.html 作为规则文件后缀,默认放在当前目录的 ./pholcus_pkg/spiders 文件夹中。用户可以在配置文件 ./pholcus_pkg/config.ini 中通过修改“spiderdir”字段来修改动态规则目录,下面代码是一个下载本人github主页的动态规则示例: <Spider> <Name>henrylee2cn github profile</Name> <Description>(HTML动态规则示例) 文件下载测试 [https://github.com/henrylee2cn]</Description>...

10
1
发表了博客
2018/08/09 14:55

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍 go语言爬虫框架: gocolly/colly,goquery,colly,chromedp,webloop,go_spider,Pholcus https://github.com/hu17889/go_spider Pholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国 https://www.golangtc.com/p/557473c9b09ecc2aa700000b henrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库 https://github.com/henrylee2cn...

0
0
发表于开发技能专区
2017/03/08 22:45

go优秀库及教程网站搜集

# 优秀库 ## ORM数据库操作 - [GORM](http://jinzhu.me/gorm/):star多,支持1-1,1-n,n-1,n-n,但对json支持很差 - [xorm](http://xorm.io/docs/):中文手册,仅支持n-1,支持json ## redis库 - [go-redis/redis](https://github.com/go-redis/redis) redis操作 - [Redigo](https://github.com/garyburd/redigo) - [redis官方列表](https://redis.io/clients#go) ## json库 - [gjson](http://github.com/tidwall/gjson) 获取...

0
0
2018/04/20 14:33

基于golang的爬虫实战

### 基于golang的爬虫实战 #### 前言 > 爬虫本来是python的强项,前期研究过scrapy,也写过一些简单的爬虫小程序,但是后来突然对golang产生兴趣,决定写写爬虫练练手。由于本人golang萌新,有错误之处,欢迎指正。 #### 大致思路 * 由于现在动态页面比较多,因此考虑通过WebDriver驱动Chrome等页面渲染完成再抓取数据。(刚开始是用Phantomjs,后来这货不维护了,而且效率不算高) * 一般爬虫程序运行在linux系统中,所以考虑C...

0
8
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2016/06/20 13:34

怎么使用pholcus

@henrylee2cn 你好,想跟你请教个问题:请问老师,这个到底怎么用啊?

1
0
发表了问答
2016/04/25 16:59

如何用google地图收集历年来全国各县政府地址

@henrylee2cn 你好,想跟你请教个问题: 请问我可以用这个爬虫程序在google地图上批量搜集历年来的全国各个县的人民政府的地址吗?由于政府可能搬迁,因此不同年份的地址可能不同。谢谢!

3
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
18 评论
879 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部