可扩展的爬虫框架 Beanbun

MIT
PHP
跨平台
2017-04-25
Kiddyu

Build Status License Sauce Test Status

简介

Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle

特点

  • 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)
  • 默认使用 guzzle 进行爬取
  • 支持分布式
  • 支持内存、Redis 等多种队列方式
  • 支持自定义URI过滤
  • 支持广度优先和深度优先两种爬取方式
  • 遵循 PSR-4 标准
  • 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)
  • 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...

安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun

快速开始

创建一个文件 start.php,包含以下内容

<?php
use Beanbun\Beanbun;
$beanbun = new Beanbun;
$beanbun->seed = [
	'http://www.950d.com/',
	'http://www.950d.com/list-1.html',
	'http://www.950d.com/list-2.html',
];
$beanbun->afterDownloadPage = function($beanbun) {
	file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

在命令行中执行

$ php start.php

接下来就可以看到抓取的日志了。

插件

更多详细内容,请查看 文档

 

的码云指数为
超过 的项目
加载中

评论(12)

无尘阁
无尘阁
和直接的file_get_contents有什么区别
planchet
planchet
为什么我composer安装beanbun的时候,安装不下来...
宁静方能致远
宁静方能致远
真的那么好用吗?
enanhai
enanhai
学习一下。
晓贰丑
这个源码是什么啊
m
michael2100
beanbun-parser 不能提取到数据,用jquery规则是可以的
王斌111
王斌111
我去,用了那么多爬虫这个真的无敌了!~~相见恨晚
大超儿
大超儿
确实挺好的
胖纸囧
胖纸囧
好东西,好想法,感谢分享。
我和上帝打个赌
http://www.codeyyy.com/linux/149-150-197.html

暂无资讯

暂无问答

php开发资源大全/类库大全

依赖管理( Dependency Management ) 用于依赖管理的包和框架 Composer / Packagist - 一个包和依赖管理器. Composer Installers - 一个多框架Composer库安装器 pickle - PHP扩展安装器 Melo...

2018/10/02 16:57
42
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部