pulsar-io-cloud-storage 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
pulsar-io-cloud-storage 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
pulsar-io-cloud-storage 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
pulsar-io-cloud-storage 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
pulsar-io-cloud-storage 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

Apache Pulsar 引入 Cloud Storage Sink 连接器(以下简称为 Cloud Storage 连接器)。Cloud Storage 连接器采用简单、可靠的方式,帮助用户将数据从 Apache Pulsar 迁移到云存储的对象中。

Cloud Storage 连接器定期轮询 Pulsar 数据,然后将其以 Avro、JSON 或 Parquet 格式存储到云存储的对象(AWS S3、Google GCS 等)中。根据用户的环境设置,Cloud Storage 连接器保证向消费者(consumer)“只发送一次” 消息。

Cloud Storage 连接器支持基于 Pulsar 主题分区或者基于时间(以天或小时为单位)的 partitioner。Partitioner 将 Pulsar 主题分区拆分成为多个数据块。数据块相当于云存储中的对象,其虚拟路径使用 Pulsar 分区 ID和该数据块的起始偏移量进行编码。对 Pulsar 分区和该数据块的起始偏移量进行编码。数据块的大小取决于云存储写入的记录的数量和 schema 兼容性。如果没有在配置中指定 partitioner,则使用保留 Pulsar 分区的缺省 partitioner。

Cloud Storage 连接器支持以下功能:

👍 确保严格一次(Exactly-Once)的数据输出

👍 支持所有数据(无论是否带有 schema 格式)

👍 支持基于时间的 partitioner

👍 支持多种对象存储类型

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
2020/10/30 18:19

Apache Pulsar 引入 Cloud Storage Sink 连接器:实现数据上云

越来越多的企业选择将数据存储到云平台中。对于大部分软件体系结构而言,“数据上云”至关重要。将数据迁移上云,有助于降低企业采购软硬件的成本,减少监控、管理工作,提供较大存储容量。而且,云存储支持数据备份,保护数据免受勒索软件的侵害。 许多 Pulsar 用户选择将数据存储在各种云平台中,例如 Amazon Simple Storage Service(Amazon S3)或 Google Cloud Storage(Google GCS)等。如果没有统一的应用程序将主题级别...

0
6
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2020/10/27 18:30

Apache Pulsar 正式引入 Cloud Storage Sink 连接器:实现 Apache Pulsar 数据上云

越来越多的企业选择将数据存储到云平台中。对于大部分软件体系结构而言,“数据上云”至关重要。将数据迁移上云,有助于降低企业采购软硬件的成本,减少监控、管理工作,提供较大存储容量。而且,云存储支持数据备份,保护数据免受勒索软件的侵害。 许多 Pulsar 用户选择将数据存储在各种云平台中,例如 Amazon Simple Storage Service(Amazon S3)或 Google Cloud Storage(Google GCS)等。如果没有统一的应用程序将主题级别...

0
1
2020/10/27 18:00

Apache Pulsar 正式引入 Cloud Storage Sink 连接器:实现 Apache Pulsar 数据上云

越来越多的企业选择将数据存储到云平台中。对于大部分软件体系结构而言,“数据上云”至关重要。将数据迁移上云,有助于降低企业采购软硬件的成本,减少监控、管理工作,提供较大存储容量。而且,云存储支持数据备份,保护数据免受勒索软件的侵害。 许多 Pulsar 用户选择将数据存储在各种云平台中,例如 Amazon Simple Storage Service(Amazon S3)或 Google Cloud Storage(Google GCS)等。如果没有统一的应用程序将主题级别...

0
0
2020/07/16 18:00

Pulsar IO 简介

Apache Pulsar 是业界领先的消息系统。使用消息系统时,一个较为常见的问题就是:将数据移入或移出消息平台的最佳方法是什么? 当然,用户可以使用 Pulsar 的 consumer 和 producer API 编写自定义代码,来传输数据。但除此之外,是否还有其他方法呢? 以下为用户提出的一些相关问题: 1. 要将数据发布到 Pulsar 或使用 Pulsar 中的数据,我应该在哪里运行相应程序? 2. 要将数据发布到 Pulsar 或使用 Pulsar 中的数据,我应该怎...

0
1
2019/11/14 17:10

Pulsar IO 中 Schema 的调用流程

🎙️阅读本文需要 4 分钟 Pulsar Connector 系列的前几篇文章已介绍了 Source、Sink 与 Producer、Consumer 的关系。 内建的 Source 封装了 Consumer、内建的 Sink 封装了 Producer,因此,Source 与 Sink 是对 pub/sub 模式的一个深层次的应用。 Pulsar 在与其他系统集成时,Schema 帮助 Pulsar 保留了数据在其他系统中原有的含义。例如,数据库中表的各个字段和信息都可以通过 Schema 表达。 Schema 的内容比较多,本文简单...

0
1
发表了博客
2018/03/24 18:19

[Firebase] 03 - Cloud Storage: object storage service

根据db上的聊天信息控制大文件的下载。 Everything is based on Chatting System. 通过db存放少量图片 @Override public void onActivityResult(int requestCode, int resultCode, Intent data) { super.onActivityResult(requestCode, resultCode, data); if (requestCode == PICK_IMAGE && resultCode == Activity.RESULT_OK) { if (data == null) { Toast.makeT...

0
0
发表了博客
2012/12/26 18:09

The role of an object storage system in the cloud

from:http://searchcloudstorage.techtarget.com/video/The-role-of-an-object-storage-system-in-the-cloud; It can be hard to get your head around object storage if you're like many data storage professionals and have been focused solely on block and file storage. However, to clearly understand the latest cloud storage offerings and strategies, data storage managers need to be able to define and e...

0
0
2020/07/01 10:32

[Pulsar-源码] Pulsar client初始化

文章目录 Pulsar client初始化过程 Producer 初始化 Pulsar client初始化过程 初始化Pulsar Producer和Consumer都需要先初始化Pulsar client。示例: PulsarClient client = PulsarClient.builder() .serviceUrl("pulsar://127.0.0.1:6650") .build(); 1 2 3 PulsarClient.builder() 会创建一个ClientBuilderImpl一个实例, 并用一个 ClientConfigurationData实例来初始化conf对象; .serviceUrl("pulsar://127.0.0.1:6650") 为c...

0
0
2016/03/23 19:07

druid.io 使用hdfs作为deep storage 不能保存

前提: ---a、首先需要你自己搭建一个hadoop集群,该集群自带hdfs功能。 ---b、第二点在你的druid的集群每一台机器配置hadoop-client。并且需要修改conf,可以直接将hadoop集群的conf目录拷贝过来。(注意:如果conf中的配置文件使用了机器名,这时你需要拷贝集群中机器的 /etc/hosts 中的必要内容,添加到本机的/etc/hosts中,假设192.168.121.100 NameNode ) 步骤: 1、配置config/_common/common.runtime.properties: drui...

1
0
2020/05/21 11:31

Pulsar笔记(好)

Pulsar 是由 Yahoo 于 2016 年开源并捐赠给 Apache 基金会的一款消息中间件,其主要特点是多租户且易于扩展,本文根据自己对 Pulsar 相关文档的理解并请教相关 PMC 后写成,囿于水平有限,错误难免,欢迎留言指正。 1 Pulsar vs Kafka 很多人查看 Pulsar 之前可能对 Kafka 很熟悉,参照上图可见二者内部结构的区别,下面详述二者的异同以明了 Pulsar 的特点。 1.1 名词对应表 根据个人对参考文档1的理解,整理如下Pulsar 和 Ka...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
2 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部