Go 版本开源爬虫框架 Creeper

Apache
Google Go
跨平台
2017-02-17
plqws

Creeper 是一个基于简单脚本( Creeper Script ,扩展名 .crs )的下一代开源爬虫框架。

需要配合一门正经的编程语言(只开发了 Go 版本)来使用,先在 Creeper Script 内定义爬取规则,然后用 Go 代码来读取规则,再爬取资源。

使用场景一般会用在需要同时采集大量不同网站,或者开发聚合阅读器时。(以后可能会增加 cli 和数据库访问支持)

简单的用例:

假如我想要爬取 HackerNews ,需要写出这样子的脚本,其实看起来有些类似 yaml 配合 jquery 的样子,但是其实差别挺大的。

page(@page=1) = "https://news.ycombinator.com/news?p={@page}"

news[]: page -> $("tr.athing")
    title: $(".title a.storylink").text
    site: $(".title span.sitestr").text
    link: $(".title a.storylink").href

之后在 Go 文件中来读取并使用这个脚本;

package main

import "github.com/wspl/creeper"

func main() {
    c := creeper.Open("./hacker_news.crs")
    c.Array("news").Each(func(c *creeper.Creeper) {
        println("title: ", c.String("title"))
        println("site: ", c.String("site"))
        println("link: ", c.String("link"))
        println("===")
    })
}

执行后,将会如期地输出类似下面的内容:

title:  Samsung chief Lee arrested as S.Korean corruption probe deepens
site:  reuters.com
link:  http://www.reuters.com/article/us-southkorea-politics-samsung-group-idUSKBN15V2RD
===
title:  ReactOS 0.4.4 Released
site:  reactos.org
link:  https://reactos.org/project-news/reactos-044-released
===
title:  FeFETs: How this new memory stacks up against existing non-volatile memory
site:  semiengineering.com
link:  http://semiengineering.com/what-are-fefets/
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

历史上11月10日计算机病毒首度的出现

1983年的今天,宾州理海大学(Lehigh University)的计算机安全研讨会上,刚从南加大拿到博士学位的柯恩(Fred Cohen, 1956- )向台下听众展示手上的磁盘片。他向大家解释里头有自己所写的...

2018/12/17 16:45
0
0
Words One

16天记住7000考研单词(第一天) 1. With my own ears I clearly heard the heart beat of the nuclear bomb. 我亲耳清楚地听到原子弹的心脏的跳动。 2. Next year the bearded bear will bea...

2015/08/18 08:37
11
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部