SeaTunnel 是一个非常易用的支持海量数据快速同步的云原生数据集成平台,每天可以稳定高效同步千亿级数据,已在字节、B站、微博、腾讯云及印度电信等数百家公司生产上使用,目前也已经支持过百种数据源。
为什么我们需要 SeaTunnel
SeaTunnel 尽所能为您解决海量数据同步中可能遇到的问题:
- 数据丢失与重复
- 任务堆积与延迟
- 吞吐量低
- 应用到生产环境周期长
- 缺少应用运行状态监控
SeaTunnel使用场景
- 海量数据同步
- 海量数据集成
- 海量数据的 ELT/ETL
- 海量数据聚合
- 多源数据处理
SeaTunnel 特性
- 简单易用,灵活配置,无需开发
- 支持 CDC
- 离线多源数据全量和增量同步
- 超高性能、海量数据处理能力
- 模块化和插件化,易于扩展
SeaTunnel 支持的 Connector
- Source
Fake, File, Hdfs, Kafka, S3, Socket, 自行开发的 Input plugin
- Transform
Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自行开发的Filter plugin
- Sink
Elasticsearch, File, Hdfs, Jdbc, Kafka, Mysql, S3, Stdout, 自行开发的 Output plugin
环境依赖
-
java 运行环境,java >= 8
-
如果您要在集群环境中运行 SeaTunnel,那么需要以下环境的任意一种:
- SeaTunnel Zeta
- Spark
- Flink
如果您的数据量较小或者只是做功能验证,也可以仅使用 local
模式启动,无需集群环境,SeaTunnel 支持单机运行。
下载
可以直接运行的软件包下载地址:https://seatunnel.apache.org/download
快速入门
快速入门:https://seatunnel.apache.org/docs/2.3.0/start-v2/locally/quick-start-seatunnel-engine
关于 seatunnel 的详细文档
生产应用案例
-
微博, 增值业务部数据平台 微博某业务有数百个实时流式计算任务使用内部定制版 seatunnel,以及其子项目Guardian做 seatunnel On Yarn 的任务监控。
-
新浪, 大数据运维分析平台 新浪运维数据分析平台使用 seatunnel 为新浪新闻,CDN 等服务做运维大数据的实时和离线分析,并写入 Clickhouse。
-
搜狗,搜狗奇点系统 搜狗奇点系统使用 seatunnel 作为 ETL 工具, 帮助建立实时数仓体系
更多案例参见: https://seatunnel.apache.org/user
贡献观点和代码
提交问题和建议:https://github.com/apache/incubator-seatunnel/issues
贡献代码:https://github.com/apache/incubator-seatunnel/contribute
评论