授权协议: MIT
开发语言: PHP
操作系统: 跨平台
收录时间: 2017-04-25
提 交 者: Kiddyu

Build Status License Sauce Test Status

简介

Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle

特点

  • 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)
  • 默认使用 guzzle 进行爬取
  • 支持分布式
  • 支持内存、Redis 等多种队列方式
  • 支持自定义URI过滤
  • 支持广度优先和深度优先两种爬取方式
  • 遵循 PSR-4 标准
  • 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)
  • 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...

安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun

快速开始

创建一个文件 start.php,包含以下内容

<?php
use Beanbun\Beanbun;
$beanbun = new Beanbun;
$beanbun->seed = [
	'http://www.950d.com/',
	'http://www.950d.com/list-1.html',
	'http://www.950d.com/list-2.html',
];
$beanbun->afterDownloadPage = function($beanbun) {
	file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

在命令行中执行

$ php start.php

接下来就可以看到抓取的日志了。

插件

更多详细内容,请查看 文档

 

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

Beanbun 的相关资讯

还没有任何资讯

Beanbun 的相关博客

【分享】2017 开源中国新增开源项目排行榜 TOP 100

2017 年开源中国社区新增开源项目排行榜 TOP 100 新鲜出炉! 这份榜单根据 2017 年开源中国社区新收录的开源项目的关注度和活...

Beanbun 的相关问答

还没有任何问答,马上提问

评论 (13)

加载中
打分: 还行
和直接的file_get_contents有什么区别
2018/07/18 13:52
回复
举报
为什么我composer安装beanbun的时候,安装不下来...
2018/01/08 16:14
回复
举报
打分: 推荐
真的那么好用吗?
2017/12/10 01:31
回复
举报
学习一下。
2017/11/19 15:53
回复
举报
这个源码是什么啊
2017/09/26 08:59
回复
举报
beanbun-parser 不能提取到数据,用jquery规则是可以的
2017/09/09 17:31
回复
举报
打分: 力荐
我去,用了那么多爬虫这个真的无敌了!~~相见恨晚
2017/06/21 15:23
回复
举报
打分: 力荐
确实挺好的
2017/06/21 15:21
回复
举报
打分: 力荐
好东西,好想法,感谢分享。
2017/04/26 16:44
回复
举报
打分: 力荐
http://www.codeyyy.com/linux/149-150-197.html
2017/04/26 14:38
回复
举报
更多评论
13 评论
217 收藏
分享
返回顶部
顶部