本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
Artificial Intelligence 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。AI 研究通常需要大量数据支撑。
本专区由 AI & 大数据 团队提供资讯和技术支持,欢迎社区成员申请加入管理小组。
图片拍摄于郑州大学新校区 大家好,我是一哥,最近有小伙伴私聊我说他们的调度系统经常出问题,领导要求大家人在哪电脑背到哪,家庭生活一地鸡毛……,其实我也有类似的经历,今天给大家分享一下做调度系统的一些经验! 目前大数据平台经常会用来跑一些批任务,跑批处理当然就离不开定时任务。比如定时抽取业务数据库的数据,定时跑hive/spark任务,定时推送日报、月报指标数据。任务调度系统已经俨然成为了大数据处理平台不可或... 展开更多
一、扩展FlinkSQL实现流与维表的join 二、为什么要扩展FlinkSQL? 1、实时计算需要完全SQL化 SQL是数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。大数据批计算使用SQL很常见,但是支持SQL的实时计算并不多。其实,用SQL开发实时任务可以极大降低数据开发的门槛,在袋鼠云数栈-实时计算模块,我们决定实现完全SQL化。 数据计算采用SQL的优势 ☑ 声明式。用户只需要表达我想要什么,至于怎么计算那是系统... 展开更多
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star! github开源项目:https://github.com/DTStack/flinkx gitee开源项目:https://gitee.com/dtstack_dev_0/flinkx 2020年春节期间,一场突如其来的疫情... 展开更多
版本说明: 环境: Windiws Scala: 2.11.8 Flink :1.10.1 大部分的DataStream API的算子的输出是单一输出,也就是某种数据类型的流。 除了split算子,可以将一条流分成多条流,这些流的数据类型也都相同。 process function的side outputs功能可以产生多条流(Flink 1.9版本之后推荐此种方案),并且这些流的数据类型可以不一样。一个side output可以定义为OutputTag[X]对象,X是输出流的数据类型。process function可以通过Con... 展开更多
Flink 基础 Flink特性 流式计算是大数据计算的痛点,第1代实时计算引擎Storm对Exactly Once 语义和窗口支持较弱,使用的场景有限且无法支持高吞吐计算;Spark Streaming 采用“微批处理”模拟流计算,在窗口设置很小的场景中有性能瓶颈,Spark 本身也在尝试连续执行模式(Continuous Processing),但进展缓慢。 Flink是一个低延迟、高吞吐的实时计算引擎,其利用分布式一致性快照实现检查点容错机制,并实现了更好的状态管理,... 展开更多
前言 微信搜【Java3y】关注这个朴实无华的男人,点赞关注是对我最大的支持! 文本已收录至我的GitHub:https://github.com/ZhongFuCheng3y/3y,有300多篇原创文章,最近在连载面试和项目系列! 最近一直在迁移Flink相关的工程,期间也踩了些坑,checkpoint和反压是其中的一个。 敖丙太菜了,Flink都不会,只能我自己来了。看敖丙只能图一乐,学技术还是得看三歪 平时敖丙黑我都没啥水平,拿点简单的东西来就说我不会。我是敖丙的... 展开更多
在上一篇分享Flink集成Hive之快速入门--以Flink1.12为例中,介绍了Flink集成Hive的进本步骤。本文分享,将继续介绍Flink集成Hive的另外两个概念:Hive Catalog与Hive Dialect。本文包括以下内容,希望对你有所帮助。 什么是Hive Catalog 如何使用Hive Catalog 什么是Hive Dialect 如何使用Hive Dialect 什么是Hive Catalog 我们知道,Hive使用Hive Metastore(HMS)存储元数据信息,使用关系型数据库来持久化存储这些信息。所以,... 展开更多
点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据真好玩! Flink作为新一代的大数据处理引擎,不仅是业内公认的最好的流处理引擎,而且具备机器学习等多种强大计算功能,用户只需根据业务逻辑开发一套代码,无论是全量数据还是增量数据,亦或者实时处理,一套方案即可全部解决。K8S是业内最流行的容器编排工具,与d... 展开更多
原文链接:https://www.splunk.com/en_us/blog/it/simple-event-processing-with-apache-pulsar-functions.html 本文作者为 David Kjerrumgaard。 阅读本文大约需要 10 分钟。 本文将深入探讨简单事件处理器。首先介绍基于事件编程器的概念、事件处理器类型、事件处理网络等;最后,介绍 Apache Pulsar Functions SDK,以及一些利用 Functions SDK 提供的状态管理功能的最佳实践。 基于事件的编程 事件驱动架构(Event-driven ... 展开更多
### 欢迎访问我的GitHub [https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) 内容:所有原创文章分类汇总及配套源码,涉及Java、Docker、Kubernetes、DevOPS等; ### 本篇概览 本文是《Flink的DataSource三部曲》系列的第二篇,上一篇[《Flink的DataSource三部曲之一:直接API》](https://blog.csdn.net/boling_cavalry/article/details/105467076)学习了StreamExecutionEnvironment的API创建DataS... 展开更多
简介:本文由网易云音乐实时计算平台研发工程师岳猛分享,主要从以下四个部分将为大家介绍 Flink + Kafka 在网易云音乐的应用实战: 背景 Flink + Kafka 平台化设计 Kafka 在实时数仓中的应用 问题 & 改进 直播回放:https://developer.aliyun.com/live/2894 一、背景介绍 (一)流平台通用框架 目前流平台通用的架构一般来说包括消息队列、计算引擎和存储三部分,通用架构如下图所示。客户端或者 web 的 log 日志会被采集到消息... 展开更多
>作者介绍:齐智 [@PingCAP](https://my.oschina.net/u/2455468) 随着互联网飞速发展,企业业务种类会越来越多,业务数据量会越来越大,当发展到一定规模时,传统的数据存储结构逐渐无法满足企业需求,实时数据仓库就变成了一个必要的基础服务。以维表 Join 为例,数据在业务数据源中以范式表的形式存储,在分析时需要做大量的 Join 操作,降低性能。如果在数据清洗导入过程中就能流式的完成 Join,那么分析时就无需再次 Join,... 展开更多
# Flink Task执行之数据流处理流程源码分析 从[这里](https://my.oschina.net/u/1034046/blog/4454457)的分析已经知道我们编写的代码最终被封装成Flink Task并在一个while循环中由一个线程中不断执行,本篇文章将进一步了解Flink Task处理数据流的整个流程。 ## 获取流数据 用户提交的代码最终被封装成了org.apache.flink.runtime.taskmanager.Task,Task是一个Runnable因此核心代码就在run方法,run方法调用了doRun方法,在doR... 展开更多
整理:陈政羽(Flink 社区志愿者) 摘要:Flink 1.11 引入了 CDC,在此基础上, JDBC Connector 也发生比较大的变化,本文由 Apache Flink Contributor,阿里巴巴高级开发工程师徐榜江(雪尽)分享,主要介绍 Flink 1.11 JDBC Connector 的最佳实践。大纲如下: JDBC connector JDBC Catalog JDBC Dialect Demo Tips:点击下方链接可查看作者原版 PPT 及分享视频: https://flink-learning.org.cn/developers/flink-training-cou... 展开更多
前言 flink消费cdc数据 canal format debezium format CanalJson反序列化源码解析 flink cdc connector 背景 mysql-cdc mysql-cdc connector源码解析 changelog format 使用场景 示例 源码浅析 前言 CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等. 用户可以在如下的场景使用cdc: 实时数据同步:比如我们... 展开更多
背景 自定义聚合函数 实例讲解 背景 在网站性能测试中,我们经常会选择 TP50、TP95 或者 TP99 等作为性能指标。接下来我们讲讲这些指标的含义、以及在flink中如何实时统计: TP50,top percent 50,即 50% 的数据都满足某一条件; TP95,top percent 95,即 95% 的数据都满足某一条件; TP99,top percent 99,即 99% 的数据都满足某一条件; 我们举一个例子,我们要统计网站一分钟之内的的响应时间的TP90,正常的处理逻辑就是把... 展开更多
摘要:7月,Flink 1.11 新版发布,在生态及易用性上有大幅提升,其中 Table & SQL 开始支持 Change Data Capture(CDC)。CDC 被广泛使用在复制数据、更新缓存、微服务间同步数据、审计日志等场景,本文由社区由曾庆东同学分享,主要介绍 Flink SQL CDC 在生产环境的落地实践以及总结的实战经验,文章分为以下几部分: 项目背景 解决方案 项目运行环境与现状 具体实现 踩过的坑和学到的经验 总结 Tips:点击下方链接可查看社区直... 展开更多
一,抽象层次 Flink提供不同级别的抽象来开发流/批处理应用程序。 1,stateful streaming 最底层。它通过Process Function嵌入到DataStream API中。它允许用户从一个或多个流自由处理事件,并使用一致的容错状态。此外,用户可以注册事件时间和处理时间回调,允许程序实现复杂的计算。 2,Core APIs 实际上,大多数应用程序不需要上述的低级别抽象,而是针对Core API(如DataStream API(有界/无界流))和DataSet API(有界数据... 展开更多
使用Tbale&SQL与Flink Kafka连接器从kafka的消息队列中获取数据 示例环境 java.version: 1.8.x flink.version: 1.11.1 kafka:2.11 示例数据源 (项目码云下载) Flink 系例 之 搭建开发环境与数据 示例模块 (pom.xml) Flink 系例 之 TableAPI & SQL 与 示例模块 SelectToKafka.java package com.flink.examples.kafka; import org.apache.flink.streaming.api.TimeCharacteristic; import org.apache.flink.streaming.a...... 展开更多
本文由京东搜索算法架构团队分享,主要介绍 Apache Flink 在京东商品搜索排序在线学习中的应用实践。文章的主要大纲如下: 1、背景 2、京东搜索在线学习架构 3、实时样本生成 4、Flink Online Learning 5、监控系统 6、规划总结 一、背景 在京东的商品搜索排序中,经常会遇到搜索结果多样性不足导致系统非最优解的问题。为了解决数据马太效应带来的模型商品排序多样性的不足,我们利用基于二项式汤普森采样建模,但是该算法仍存... 展开更多