Colly 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
Colly 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
Colly 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache 2.0
开发语言 Google Go 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 应用工具网络爬虫
开源组织
地区 不详
投 递 者 王练
适用人群 未知
收录时间 2018-05-17

软件简介

Colly 是一个采用 Go 语言编写的 Web 爬虫框架,旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly ,你可以轻松从网站中提取结构化的数据,然后进行数据挖掘、处理或归档。

项目特性

  • 清晰明了的 API 

  • 快速(单个内核上的请求数大于1k)

  • 管理每个域的请求延迟和最大并发数

  • 自动 cookie 和会话处理

  • 同步/异步/并行抓取

  • 高速缓存

  • 自动处理非 Unicode 编码

  • 支持 Robots.txt

  • 支持 Google App Engine

  • 通关环境变量进行配置

  • 可扩展

示例

func main() {
	c := colly.NewCollector()

	// Find and visit all links
	c.OnHTML("a[href]", func(e *colly.HTMLElement) {
		e.Request.Visit(e.Attr("href"))
	})

	c.OnRequest(func(r *colly.Request) {
		fmt.Println("Visiting", r.URL)
	})

	c.Visit("http://go-colly.org/")
}
展开阅读全文

代码

评论 (2)

加载中
遇到VUE等使用js进行动态绑定数据的页面就不行了
2019/02/15 17:52
回复
举报
走OnResponse回调不就行了,....
2021/05/24 12:00
回复
举报
更多评论
暂无内容
发表了博客
2019/09/23 10:07

colly 入门指南 ##3

使用colly之前,请确保您拥有最新的版本。有关详细信息,请参阅安装指南。 让我们从一些简单的例子开始。 首先,你需要导入Colly到你的代码库: import "github.com/gocolly/colly"    收集器 Colly的主要实体是一个收集器对象。Collector管理网络通信,并负责在运行收集器作业时执行附加的回调。要使用colly,您必须初始化一个收集器: c := colly.NewCollector()    回调 您可以将不同类型的回调函数附加到收集器,以控...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
2 评论
17 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部