授权协议: MIT
开发语言: Python
操作系统: 跨平台
收录时间: 2013-02-28
提 交 者: baizhongwei

这是一个非常简单易用的抓取工具

怎么使用? 首先你需要创建一个对应站点的规则文件 比如test.json

{
    "name": "bing searcher",
    "action": "main",
    "subaction": [
        {
            "action": "fetcher",
            "url": "http://www.bing.com/search?q=${@q}",
            "timeout": 1,
            "subaction": [
                {
                    "action": "parser",
                    "subaction": [
                        {
                            "action": "shell",
                            "subaction": [
                                {
                                    "action": "parser",
                                    "setField": "title",
                                    "pos": 0,
                                    "rule": "a",
                                    "strip": "true"
                                },
                                {
                                    "action": "parser",
                                    "setField": "description",
                                    "pos": 0,
                                    "rule": "p"
                                }
                            ],
                            "group": "default"
                        }
                    ],
                    "rule": "#results .sa_wr"
                }
            ]
        }
    ]
}


然后在代码里面把它作为一个任务加入到railgun

from railgun import RailGun

railgun = RailGun()
railgun.setTask(file("testsite.yaml"));
railgun.fire();
nodes = railgun.getShells('default')
print nodes

然后你就可以得到一个包含了所有解析后数据的节点列表 [{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx},{img:xxx,src:xxx,score:xxx,dest:xxx,description:xxx}]

同时支持用webkit内核运行javascript抓取网页,css方式的dom选择方式

跨平台 支持windows


展开阅读全文

代码

pyrailgun 的相关资讯

还没有任何资讯

pyrailgun 的相关博客

Python扫描并复制文件,读取文件列表复制文件

因为项目需要,我负责上传文件,昨天整理了一些文件,但是今天又改了下,不想手动一个个复制,于是想用程序解决。 然后还有个...

GitHub上有趣的python资料

和大家分享一下我整理的有趣的GitHub repository,最新版本信息请移步项目地址: repo_starred 大家可以给我发送issue 分享自...

开源爬虫软件汇总

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜...

33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜...

这些爬虫框架你见过吗?33款开源爬虫框架分享!

采编:JAVAandPython君 很多人一提到爬虫,就会想到Python语言。其实不仅仅只有Python才能写爬虫,其他语言也有非常优秀的爬虫...

pyrailgun 的相关问答

还没有任何问答,马上提问

评论 (0)

加载中
更多评论
0 评论
22 收藏
分享
在线直播报名
返回顶部
顶部