Apache Beam 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Apache Beam 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Apache Beam 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Apache Beam 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Apache Beam 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 大数据其他
开源组织 Apache
地区 不详
投 递 者 王练
适用人群 未知
收录时间 2016-11-13

软件简介

Apache Beam 是 Apache 软件基金会越来越多的数据流项目中最新增添的成员,是 Google 在2016年2月份贡献给 Apache 基金会的孵化项目。

这个项目的名称表明了设计:结合了批处理(Batch)模式和数据流(Stream)处理模式。它基于一种统一模式,用于定义和执行数据并行处理管道(pipeline),这些管理随带一套针对特定语言的SDK用于构建管道,以及针对特定运行时环境的Runner用于执行管道。

Apache Beam 的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam希望基于Beam开发的数据处理程序可以执行在任意的分布式计算引擎上。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (9)

加载中
打分: 推荐
Apache Beam发布了第一个稳定版 http://beam-china.com/beam-first-stable-releas
2017/05/25 11:20
回复
举报
技术更新太快了
2017/05/20 13:41
回复
举报
打分: 力荐
Apache Beam Java SDK 快速开始: https://my.oschina.net/geekidentity/blog/834286
2017/04/22 09:26
回复
举报
beam 不是处理器, 只是个model和sdk而已
2017/02/15 13:29
回复
举报
很不错,领导行业
2017/02/13 13:02
回复
举报
打分: 还行
Spark,Flink只需要一个就足够了。
2017/02/10 16:15
回复
举报
apache已经有一堆流处理器了,apace storm, spark streaming, and beam
2017/02/09 21:30
回复
举报
打分: 很差
2017/02/09 11:14
回复
举报
打分: 力荐
很不错
2017/02/06 14:38
回复
举报
更多评论
发表于AI & 大数据专区
02/26 07:37

Apache Beam 2.28.0 发布,大数据流处理与批处理编程范式

Apache Beam 2.28.0 已发布,Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,理想情况是基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 更新亮点 与 Parquet 支持相关的大量改进 (BEAM-11460, BEAM-8202 和 BEAM-11526) BeamSQL 中的哈希函数 (BEAM-10074) ZetaSQL 中的哈希函数 (BEAM-11...

0
7
01/10 07:32

Apache Beam 2.27.0 发布,大数据流处理与批处理编程范式

Apache Beam 2.27.0 发布了。Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,理想情况是基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 此版本主要更新内容如下: Highlights Java 11 Containers 现已随所有 Beam 版本一起发布。 有一个新的转换ReadAllFromBigQuery,可以在管道运行时接收多...

0
4
2020/10/25 10:44

Apache Beam 2.25.0 发布,大数据流处理与批处理编程范式

Apache Beam 2.25.0 发布了。Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,理想情况是基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 此版本主要特性变更包括: 在 ReadFromBigQuery 的 JSON 解码器中增加了对可重复字段的支持。(Python) 为 Python SDK 添加了一个 opt-in、performance...

2
3
发表于AI & 大数据专区
2020/09/21 07:31

Apache Beam 2.24.0 发布,大数据流处理与批处理编程范式

Apache Beam 2.24.0 发布了。Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,理想情况是基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 此版本主要特性变更包括: Python SDK 添加了一个共享库,用于简化对大型共享对象的管理。 将数据流流计时器设置为较早的 mid-bundle 时并没有严格的时间...

1
1
2020/07/31 07:28

Apache Beam 2.23.0 发布,大数据批处理和流处理标准

Apache Beam 2.23.0 现已发布。Apache Beam 是 Google 在 2016 年 2 月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限、乱序、web-scale 的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的 SDK。Apache Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam 希望基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 主要更新内容:...

0
2
发表于AI & 大数据专区
2020/02/06 07:54

Apache Beam 2.19.0 发布,大数据批处理和流处理标准

Apache Beam 2.19.0 发布了。 Apache Beam 是 Google 在 2016 年 2 月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限、乱序、web-scale 的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的 SDK。Apache Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam 希望基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 主要更新内容: ...

0
8
发表于AI & 大数据专区
2018/12/16 07:54

Apache Beam 2.9.0 发布,大数据批处理和流处理标准

Apache Beam 2.9.0 发布了。Apache Beam 是 Google 在2016年2月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限、乱序、web-scale 的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的 SDK。Apache Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam 希望基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 下载地址:https://bea...

0
7
发表于AI & 大数据专区
2018/10/20 08:04

Apache Beam 2.7.0 发布,大数据批处理和流处理标准

Apache Beam 2.7.0 发布了。Apache Beam 是 Google 在 2016 年 2 月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale 的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的 SDK。Apache Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam 希望基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 下载地址:https:/...

0
5
2018/02/20 07:26

Apache Beam 2.3.0 发布,大数据批处理和流处理标准

Apache Beam 2.3.0 发布了。主要更新内容如下: full Java 8 support Spark 2.x support in Spark runner Amazon WS S3 filesystem support General-purpose writing to files (FileIO) Splittable DoFn support in Python SDK Improvements on Portability layer Improvements on SDKs & runners Improvements on several IOs 更多内容可以查看发布说明或者 Issue 下载地址: https://beam.apache.org/get-started/downloads/...

0
3
发表了资讯
2017/05/20 08:48

Apache Beam 2.0 发布,首个稳定版本

Apache Beam在官方博客上正式发布了Beam 2.0.0。这是Beam有史以来的第一个稳定版本,根据Beam社区的声明,Beam意欲为未来版本发布保持API的稳定性,并让Beam适用于企业的部署。 Beam的第一个稳定版本是Beam社区发布的第三个重要里程碑。Beam在2016年2月成为Apache孵化器项目,并在同年12月升级成为Apache基金会的顶级项目。经过从开始至今的15个月全神贯注的努力,从一个有点混乱的代码库开始,从各大组织合并代码,成就了如今的...

1
22
发表了资讯
2017/03/18 07:08

Apache Beam 0.6.0,大数据批处理和流处理标准

Apache Beam 0.6.0 发布了,该版本为 Python 编程语言引入了一个新的 SDK。 此外,该版本为 Apache HBase 在 Java SDK 中添加了一个新的 IO 链接器,以及一些常见的错误修复和改进。 最后,还改进了对 Beam 模型的支持,包括支持最近推出的 State 和 Timer API,以及 Beam 链接到分布式文件系统的链接器。 发布主页 和 发布说明 Apache Beam 是 Google 在 2016 年 2 月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处...

0
14
发表了资讯
2017/02/10 07:44

Apache Beam 0.5.0 发布,大数据批处理和流处理标准

Apache Beam 0.5.0 发布了,Apache Beam 是 Google 在2016年2月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam 希望基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 更新内容: Bug [BEAM-56...

0
14
发表了资讯
2017/01/12 07:43

Apache 基金会宣布 Apache Beam 成为顶级项目

1月10日,Apache 软件基金会宣布,Apache Beam 已经成功地从孵化毕业,成为基金会的一个新的顶级项目。 Apache Beam 是 Google 在2016年2月份贡献给 Apache 基金会孵化的项目。项目的名称表明了其设计:结合了批处理(Batch)模式和数据流(Stream)处理模式。它基于一种统一模式,用于定义和执行数据并行处理管道(pipeline),这些管理随带一套针对特定语言的SDK用于构建管道,以及针对特定运行时环境的Runner用于执行管道。 ...

1
18
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/05/07 21:20

beam search

Beam Search greedy search generate (or “decode”) the target sentence by taking argmax on each step of the decoder problem with greedy search : Greedy decoding has no way to undo decisions! Input: il a m’entarté (he hit me with a pie) → he ____ → he hit ____ → he hit a ____ (whoops! no going back now…) Exhaustive search decoding Ideally we want to find a (length T) translation y that ma...

0
0
发表了博客
2018/05/09 11:47

初探Apache Beam

文章作者:luxianghao 文章来源:http://www.cnblogs.com/luxianghao/p/9010748.html 转载请注明,谢谢合作。 免责声明:文章内容仅代表个人观点,如有不当,欢迎指正。 --- 一 引言 2016年2月Google宣布将Beam(原名Google DataFlow)贡献给Apache基金会孵化,成为Apache的一个顶级开源项目。 Beam是一个统一的编程框架,支持批处理和流处理,并可以将用Beam编程模型构造出来的程序,在多个计算引擎(Apache Apex, Apache Fli...

0
0
发表了博客
2019/02/12 19:42

Apache Beam是什么?

Apache Beam 的前世今生 1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源。 2003年,谷歌发布了著名的大数据三篇论文,史称三驾马车:Google FS、MapReduce、BigTable。虽然谷歌没有公布这三个产品的源码,但是她这三个产品的详细设计论文开启了全球的大数据时代!从Doug Cutting大神根据谷歌的论文实现出Hadoop+MapReduce的雏形,到Hadoop生态圈各种衍生产品的...

0
0
2019/05/31 11:28

Apache Beam的架构概览

 Apache Beam是一个开源的数据处理编程库,由Google贡献给Apache的项目,前不久刚刚成为Apache TLP项目。它提供了一个高级的、统一的编程模型,允许我们通过构建Pipeline的方式实现批量、流数据处理,并且构建好的Pipeline能够运行在底层不同的执行引擎上。刚刚接触该开源项目时,我的第一感觉就是:在编程API的设计上,数据集及其操作的抽象有点类似Apache Crunch(MapReduce Pipeline编程库)项目;而在支持统一数据处理模型...

0
0
发表了博客
2019/10/30 09:16

beam search 和 greedy search

贪心搜索(greedy search): 贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度。 集束搜索(beam search): 集束搜索可以认为是维特比算法的贪心形式,在维特比所有中由于利用动态规划导致当字典较大时效率低,而集束搜索使用beam size参数来限制在每一步保留下来的可能性词的数量。集束搜索是在测试阶段为了获得更好准确性而采取的一种策略,在训练阶段无需使用。 假设字典为[a,b,c],beam size选择...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了问答
2017/03/23 19:08

Apache Beaming

@Ryan-瑞恩 你好,想跟你请教个问题:Apache beam是基于Spark Streaming的吗?跟华为自主开发的Stream DM之间有什么联系和区别呢?

1
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
9 评论
249 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部