Pulsar Flink Connector 2.5.0 发布, 支持 Flink 1.11

2020年09月14日

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展流数据存储特性。

Pulsar Flink Connector 集成了 Apache Pulsar 和 Apache Flink(数据处理引擎),允许 Apache Flink 向 Apache Pulsar 读写数据。Pulsar 支持 Flink 的批流融合计算计算,无需用户再进行多余的操作。
 

以下是 Pulsar Flink Connector 2.5.0 中添加的一些主要的功能。

  • Pulsar-Flink 相关

  • 支持 Flink 1.11 和 flink-sql DDL 

Flink 1.11 版本升级的幅度较大,一些公共 API 发生了增删,导致 Flink 1.9、Flink 1.11 的 Pulsar 连接器无法做到兼容。本次变更使项目分为两个模块,来支持不同版本的 Flink。BIGO 的陈航、吴展鹏童鞋为此特性付出了很大的努力。

1. 支持 Flink 1.11 版本。

2. 新增 Flink-sql DDL 支持。

3. 更新 topic 分区策略,使消费更均匀。

4. Flink 1.11 兼容 Pulsar schema。

  • 添加 Pulsar deserializationSchema 接口

抽象 PulsarDeserializationSchema 接口,使用户可以自定义解码,获得更多源信息。

  • Flink Sink 增加 JSON 支持

Flink Sink 实现中,Pulsar Schema 类型支持 JSON 。

  • PulsarCatalog 变更为基于 GenericInMemoryCatalog 实现

PulsarCatalog 的实现变更为继承 GenericInMemoryCatalog。

 

  • Pulsar Schema 相关

  • 增加 Java 8 时间、日期类型到 Pulsar Schema 的原生类型

为 Pulsar Schema 增加 Java 8 常用的 Instant、LocalDate、LocalTime、LocalDateTime 等类型支持。

Pulsar Flink Connector 2.5.0 的发布,对于这个快速发展的项目来说,是一个大的里程碑。在此特别感谢为本次版本发布做出贡献的 hangc0276wuzhanpengsijiejianyun8023

如果你有好的想法或想成为项目贡献者,欢迎提交 issue 至https://github.com/streamnative/pulsar-flink/issues,也可以参考我们的贡献指南

源码地址:

Pulsar Flink Connector: https://github.com/streamnative/pulsar-flink/tree/release-2.5.0

streamnative/pulsar-flink: https://github.com/streamnative/pulsar-flink/issues
 

展开阅读全文
3 收藏
分享
加载中
最新评论 (4)
听说吞吐量比不上kafka
2020-09-14 21:10
0
回复
举报
这是一个错误的认识哦。在雅虎日本使用 Pulsar 的用户案例中可以看到,据报道,Pulsar 处理吞吐量和延迟的性能更好。详情参考 https://www.infoq.cn/article/pcfrbUj7THZH_qs9E6ZV。
欢迎去我们的 gzh 或者 guan网了解更新信息。
2020-09-15 11:48
0
回复
举报
你看下评论
2020-09-15 17:00
0
回复
举报
该文章是社区小伙伴翻译的中文版本。原文可以见我们的guan网 success stories,原作者是雅虎日本的技术负责人,他们在自己的系统内成功部署 Pulsar 后,受邀写下的用户案例。
一个如此大规模的公司,为了能够支撑其庞大业务量,必定会经过严格的调研。雅虎日本部署了 Pulsar,这件事本身就是对文章内容和 Pulsar 的性能最有力的支撑。
2020-09-16 12:12
0
回复
举报
更多评论
4 评论
3 收藏
分享
返回顶部
顶部