自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Ververica的博客

Apache Flink 官方运营账号

  • 博客(826)
  • 收藏
  • 关注

原创 Flink Shuffle 技术演进之路

本文整理自阿里云智能 Flink 团队的郭伟杰老师和哔哩哔哩的蒋晓峰老师在 Flink Forward Asia 2024 核心技术 (一) 专场中的分享,他们分别是 Apache Flink 和 Apache Celeborn 的 PMC member。Shuffle 是分布式系统中数据流转的关键技术之一,对作业性能有着极为重要的影响,在计算引擎中扮演着重要角色。自 Flink 诞生以来,已有十年的发展历程。

2025-04-01 20:02:49 1014

原创 Flink 批处理自适应执行计划优化

如果用静态 Broadcast Hash Join 优化策略对它进行优化,我们只能通过统计信息得到右表的原始数据量,由于表的大小15MB大于 Broadcast 的阈值 10MB,因此它不会在编译期被优化为 Broadcast Hash Join,但是在实际运行的时候,经过 Filter 算子的过滤,它所在的 stage 产出的实际数据量只有5MB,又满足了 Broadcast 的阈值,但是在原有的架构下,由于逻辑拓扑无法被修改,因此它还是会按照SortMergeJoin的方式去执行。

2025-03-27 20:01:29 584

转载 白话Apache Flink FLIP-2 窗口函数知道得更多:让窗口处理更加智能

当前的窗口函数只能知道"窗口里有什么数据",却不知道"这些数据是正常到达的还是迟到的",也不知道"这是第几次处理这个窗口的数据"。这些新增的触发信息就像是数据的"身份证",告诉我们每条数据的来龙去脉。首先是数据处理变得更加精细了,现在我们可以根据数据到达的时间来区别对待:对迟到的数据进行特殊处理,区分正常数据和补充数据,这样就能支持更复杂的业务场景。通过这个例子,我们可以看到新窗口函数的强大之处:它不仅知道数据的内容,还能区分数据到达的时间(准时还是迟到),记录处理的次数,这让数据处理变得更加灵活和智能。

2025-03-27 20:01:29 13

原创 Flink + Doris 实时湖仓解决方案

本文整理自 SelectDB 技术副总裁、Apache Doris PMC Chair 陈明雨老师在 Flink Forward Asia 2024 行业解决方案(二) 专场中的分享。

2025-03-25 20:02:37 812

原创 Apache Flink 2.0.0: 实时数据处理的新纪元

实时计算的成本居高不下,无论是昂贵的资源消耗,还是掌握复杂的分布式流处理概念所需的学习曲线,都限制了实时计算在更多样化应用场景中的发挥。在 Flink 2.0 中,Flink 社区与 Paimon 社区紧密合作,充分发挥各自优势和前沿功能,带来了显著的增强和优化。这有效缓解了由数据倾斜引起的长尾延迟。- 通过与 Apache Paimon 社区的合作,Paimon 的湖存储格式目前原生支持 Flink 物化表,将 Flink 的流批计算与 Paimon 的高性能 ACID 事务相结合,实现统一的数据服务。

2025-03-24 20:01:21 799

原创 基于 pyflink 的算法工作流设计和改造

团队工作控制台负责配置算法控制流和数据源,数据源可以是 Kafka 或历史数据仓库。在算法一中,可能采用分类评估算法。例如,团队可能设计了一个从 2K 到 4K、6K 到 18K 的分类识别算法,用于将数据分为不同的区间。接下来,根据特定的频段进行噪声识别。例如,如果工况大于某个特定的 K 值,数据会被归入区间一;如果工况大于另一个 K 值,则归入区间二。最后,团队应用事件算法,将各种算法的输出匹配到不同类型的事件中。为了让大家更清楚地了解,以下将展示团队算法输出结果的具体形式。

2025-03-21 09:54:32 531

原创 阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践

本文整理自阿里妈妈的数据技术专家陈亮老师在 Flink Forward Asia 2024 流式湖仓(三)专场中的分享。

2025-03-14 15:29:51 668

转载 白话Apache Flink FLIP-1 任务挂了怎么办:Flink 的明智恢复方案

FLIP-1 任务挂了怎么办:Flink 的明智恢复方案开篇你有没有遇到过这样的情况:正在开会,一群人讨论得热火朝天,突然有个人掉线了。最糟糕的是,主持人说:"好,我们从头开始重新来一遍!"。所有人都一脸懵:明明就一个人掉线,为啥要大家都重来?这不是浪费时间吗?在 Flink 的早期版本中,任务失败的处理方式就是这样的 —— 一个任务出问题,所有任务都得重新开始。今天我们要聊的 FLIP-1,就是...

2025-03-12 20:01:24 52

原创 官宣 | Fluss 0.6 发布公告

Fluss 社区很高兴地宣布Fluss 0.6.0版本正式发布。这一版本历时 3 个多月的密集开发,凝聚了全球 45 位贡献者的智慧与努力,累计完成 200+ 次代码提交 。衷心感谢每一位贡献者的支持!此次版本的发布带来了诸多功能亮点:列压缩:保留列裁剪性能的同时,降低6倍存储空间!MergeEngine:新增灵活的主键数据合并策略,满足不同的实时处理场景需求。Prefix Lookup:De...

2025-03-10 20:01:36 1084

原创 vivo基于Paimon的湖仓一体落地实践

摘要:本文整理自 vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在 Flink Forward Asia 2024 流式湖仓专场(一)中的分享。本次分享基于 vivo 的实际案例,展示在构建现代化数据湖仓过程中的一些关键决策和技术实践,包括组件选型、架构设计、性能优化以及数据迁移等方面的探索。内容分为以下几个部分:组件选型及架构离线加速流批链路统一消息组件平替...

2025-03-06 20:04:32 718

原创 Flink CDC + Hologres高性能数据同步优化实践

摘要:本文整理自阿里云高级技术专家胡一博老师在 Flink Forward Asia 2024 数据集成(二)专场中的分享。内容主要为以下四部分:Hologres 介绍写入优化消费优化未来展望Tips:关注「公众号」回复 FFA 2024 查看会后资料~01Hologres 简介首先,介绍一下 Hologres,它是一个实时数据仓库,能够提供一体化的分析和服务。分析即 OLAP,写入延迟基本可以达...

2025-03-04 19:58:02 731

原创 基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成

本教程的演示都将在 Flink CDC CLI 中进行,无需一行 Java/Scala 代码,也无需安装 IDE。Tips:点击「阅读原文」基于 Flink CDC 的企业级实时数据同步方案~这篇教程将展示如何基于 Flink CDC YAML 快速构建 MySQL 到 Kafka 的 Streaming ELT 作业,包含整库同步、表结构变更同步演示和关键参数介绍。准备阶段准备 Flink St...

2025-02-26 20:02:56 988

原创 小米基于 Apache Paimon 的流式湖仓实践

摘要:本文整理自计算平台软件研发工程师钟宇江老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。内容主要为以下三部分:背景介绍基于 Paimon 构建近实时数据湖仓未来展望Tips:关注「公众号」回复 FFA 2024 查看会后资料~01背景介绍第一部分是背景介绍,简单介绍之前的典型的实时数仓的架构,以及引入 Apache Paimon 的原因。1.1 当前实时湖仓...

2025-02-25 20:00:58 631

原创 Flink基于Paimon的实时湖仓解决方案的演进

本文整理自阿里云高级研发工程师,Apache Flink Committer,Apache Paimon Contributor苏轩楠老师在 Flink Forward Asia 2024 核心技术(二)专场中的分享。

2025-02-20 20:01:37 493

转载 阿里云基于 Flink CDC 的现代数据栈云上实践

摘要:本文来自阿里云高级开发工程师,Apache Flink Committer 阮航老师分享的阿里云基于 Flink CDC 的现代数据栈云上实践。主要分为以下四个内容:基于 Flink CDC 的现代数据栈CDC YAML 核心功能CDC YAML 典型应用场景Demo & 未来展望Tips:点击「阅读原文」基于 Flink CDC 的企业级实时数据同步方案~01基于 Flink CD...

2025-02-19 20:02:57 75

原创 鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

本文整理自鹰角大数据开发工程师,Apache Hudi Contributor 朱正军老师在 Flink Forward Asia 2024 生产实践(二)专场中的分享。

2025-02-19 18:14:45 1382

原创 Flink Materialized Table:构建流批一体 ETL

摘要:本文整理自阿里云智能集团 、Apache Flink Committer 刘大龙老师在 Flink Forward Asia 2024 流批一体(一)专场中的分享。主要分为以下三个方面:A User Story Of Data EngineerMaterialized Table 构建流批一体 ETLDemoTips:关注「公众号」回复FFA 2024 查看会后资料~01A User St...

2025-02-13 20:01:45 983

原创 ​Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计

摘要:本文整理自阿里云实时数仓 Hologres 负责人姜伟华老师在 Flink Forward Asia 2024 行业解决方案(二)专场中的分享。主要分为以下三个方面:实时数仓的发展历程从实时数仓到实时湖仓总结Tips:关注「公众号」回复FFA 2024 查看会后资料~01实时数仓的发展历程以一个典型客户案例来回顾实时数仓的发展历程。1.1 第一代实时数仓:Lambda 架构,离线实时分别计...

2025-02-11 20:01:38 897

转载 官宣|Apache Paimon 1.0 发布公告

Apache Paimon PMC 正式发布具有里程碑意义的 1.0 稳定版本(版本号 1.0.1)。这次核心版本历经近5个月的精心打磨,汇集了来自全球开源社区的 70 余位开发者智慧,累计完成 520 余项代码提交,充分展现了社区驱动的技术演进力量。我们谨向所有参与贡献的开发者致以诚挚谢意!值得关注的是,Paimon 1.0 已成功通过阿里巴巴集团和字节跳动等头部企业的严苛生产验证。在双十一全...

2025-02-10 20:01:35 206

原创 Flink CDC YAML:面向数据集成的 API 设计

本文整理自阿里云智能集团 、Flink PMC Member & Committer 徐榜江(雪尽)老师在 Flink Forward Asia 2024 数据集成(一)专场中的分享。

2025-02-06 20:03:40 843

转载 Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践

摘要:本文整理自中阿里云 DataWorks 数据集成团队陈吉通老师在 Flink Forward Asia 2024 生产实践(二)专场中的分享。内容分为以下四个部分:1.阿里云 DataWorks 数据集成介绍2.DataWorks 数据集成入湖解决方案的架构和原理3.DataWorks 数据集成入湖场景的产品化案例分享4.未来规划Tips:关注「公众号」回复FFA 2024 查看会后资料~...

2025-01-26 20:00:58 79

原创 微财基于Flink构造实时变量池

。摘要:本文整理自微财资深数据开发工程师穆建魁老师在 Flink Forward Asia 2024 行业解决方案(一)专场中的分享。主要分为以下三个部分:微财科技基于 Flink 构建时变量池分享架构选型和开发效率提升策略实时变量池架构与多流关联优化实践Tips:关注「公众号」回复FFA 2024 查看会后资料~01微财科技基于 Flink 构建时变量池分享本次分享的的主题是微财基于 Flin...

2025-01-23 20:01:52 504

转载 Flink CDC 3.3.0 发布公告

Apache Flink 社区非常高兴地宣布 Flink CDC 的下一个主要版本 3.3.0 已经发布。现在,您可以访问 Flink CDC Release 页面[1] 下载 CDC 3.3.0 的二进制包,也可以在文档网站[2] 上访问最新版本的文档。如果您在使用时遇到任何问题,欢迎在 Flink 用户邮件列表[3]、用户钉群、GitHub Discussions[4] 或 Flink JIR...

2025-01-22 20:02:06 324

原创 湖仓实时化升级 :Uniflow 构建流批一体实时湖仓

本文整理自阿里云产品经理李昊哲老师在 Flink Forward Asia 2024 流批一体(一)专场中的分享,主要分为以下三个方面:1. 实时湖仓发展趋势洞察2. 基于Flink搭建流批一体实时湖仓3. MaterializedTable升级流批一体湖仓体验

2025-01-21 20:01:44 819

原创 用友畅捷通在Flink上构建实时数仓、挑战与最佳实践

摘要:本文整理自用友畅捷通数据架构师王龙强老师在 Flink Forward Asia 2024 生产实践专场中的分享,主要分为以下五个方面:业务背景数仓建设当前挑战最佳实践未来展望Tips:关注「公众号」回复FFA 2024 查看会后资料~用友旗下的畅捷通信息技术股份有限公司自 2010 年成立以来,经历了从传统软件服务向 SaaS 转型的历程,并逐步构建了自己的云服务平台。在过去两年中,基于...

2025-01-16 20:00:37 500

原创 Flink CDC 在阿里云实时计算Flink版的云上实践

摘要:本文整理自阿里云高级开发工程师,Apache Flink Committer 阮航老师在 Flink Forward Asia 2024 生产实践(三)专场中的分享,主要分为以下四个方面:Flink CDC&实时计算FlinkCDC YAML核心功能CDC YAML典型应用场景Demo&未来规划Tips:点击「阅读原文」跳转 Flink CDC 实时数据同步方...

2025-01-14 20:01:09 774

原创 Fluss: First Impression

Fluss [2] 是阿里巴巴前几周开源的一个新一代流存储,请查看其公告文章[3]。Fluss 与其他流存储(如 Apache Kafka、Apache Pulsar、Redpanda 等)非常相似,但在某些方面也存在显著差异(并且确实具备一些独特的功能),比如Fluss被设计成与 LakeHouse(如 Apache Iceberg 和 Apache Paimon)紧密集成。目前,Fluss 还没有支持 Kafka 协议,但这已被列入Fluss 的 Roadmap 中。

2025-01-10 10:07:02 809

原创 基于 Flink 进行增量批计算的探索与实践

摘要:本文整理自阿里云高级技术专家 Apache Flink PMC 朱翥老师,在 Flink Forward Asia 2024 流批一体(一)中的分享。内容主要分为三部分:背景介绍工作介绍总结展望Tips:关注「公众号」回复FFA 2024 查看会后资料~本次分享的内容主要分为三个部分。首先,将探讨为何需要增量计算,以及为何选择 Apache Flink 进行增量计算的工作。第二部分将介绍当...

2025-01-07 20:01:01 900

原创 Paimon 1.0: Unified Lake Format for Data + AI

本文整理自阿里云智能开源湖存储负责人李劲松在 Flink Forward Asia 2024 上海站主论坛上的演讲。演讲中提到,Apache Paimon 于今年3月份成功毕业成为 Apache 顶级项目,下一步计划发布 1.0 版本,期望达到 Unified Lake Format for Data + AI,解决数据处理与AI应用中的多个关键问题。Paimon 结合 Flink 打造 Streaming Lakehouse 解决方案,该方案已在阿里巴巴集团及多个行业中得到广泛应用。

2025-01-02 14:32:53 901

原创 您有一份 Apache Flink 社区年度报告请查收~

在 2024 年,Apache Flink 继续在大数据流计算领域稳固其领导地位,经过十年的不断努力与创新,我们欣喜地看到 Flink 不仅在技术架构上取得重大突破,更在业界实践中展现了强大的生命力。流式湖仓架构的提出与实施,标志着 Flink 从传统的流处理走向了更广泛的应用场景,满足了日益增长的实时数据处理需求。尤其是在今年阿里巴巴“双十一”活动中的成功应用,充分展示了 Flink+Paimo...

2024-12-31 18:02:48 1078

原创 探索Flink动态CEP:杭州银行的实战案例

摘要:本文撰写自杭州银行大数据工程师唐占峰、欧阳武林老师。将介绍 Flink 动态 CEP的定义与核心概念、应用场景、并深入探讨其技术实现并介绍使用方式。主要分为以下几个内容:Flink动态CEP简介Flink动态CEP的应用场景Flink动态CEP的技术实现Flink动态CEP的使用方式杭州银行应用实践Tips:点击「阅读原文」跳转阿里云实时计算 Flink~金融行业大数据技术正在进入成熟期,数...

2024-12-24 20:04:40 1316

原创 Flink 2.0 存算分离状态存储 — ForSt DB

摘要:本文整理自阿里云技术专家,Apache Flink Committer兰兆千老师,在 Flink Forward Asia 2024 核心技术(一)中的分享。主要分为以下几个内容:1. Flink 2.0 存算分离架构介绍2. 全新状态存储内核 — ForSt DB3. 工作进展 & 未来展望Tips:关注「公众号」回复FFA 2024 查看会后资料~01Flink 2.0 存算...

2024-12-19 20:01:32 1185

原创 Apache Flink 2.0:Streaming into the Future

整个筹备过程经历了相当长的时间,经过 Flink 1.18、1.19、1.20 三个小版本的迭代,终于在不久前的 10 月,在柏林的 Flink Forward 会议上,我们发布了 Flink 2.0 的预览版本。Flink 2.0 的筹备过程耗时接近两年,从去年的 4 月到明年年初发布,其原因除了技术架构升级的复杂性,还有就是我们将在这次大版本升级中引入一系列非兼容性的改动,希望为用户和生态合作伙伴留出足够的时间来适应这些改动。正如之前提到的,存储访问延迟对 Flink 的性能有非常关键的影响。

2024-12-17 20:04:05 999

原创 流存储Fluss:迈向湖流一体架构

本文整理自阿里云高级开发工程师,Flink Committer 罗宇侠老师在 Flink Forward Asia 2024上海站分论坛流批一体(二)中的分享

2024-12-17 16:38:54 1465

原创 The Past, Present and Future of Apache Flink

摘要:本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024上海站主论坛开场的分享,今年正值Flink开源项目诞生的第10周年,借此时机,王峰回顾了Flink在过去10年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年Flink路向何方。内容主要分为这三个部分:Apache Flink 10周年发展回顾Apache Flink 当前的发展...

2024-12-12 20:00:27 1186

原创 Fluss:面向实时分析设计的下一代流存储

本文整理自阿里云智能 Flink SQL和数据通道负责人、Apache Flink PMC 伍翀(花名:云邪)老师,在 Flink Forward Asia 2024 主会场的分享。主要分享了一种专为流分析设计的新一代存储解决方案——Fluss,并由阿里巴巴开源委员会副主席王峰先生,在 FFA 2024 现场进行了 Fluss 项目的开源。

2024-12-11 10:50:02 1060

原创 CDC YAML 在阿里云的最佳实践

CDC YAML 是 Flink CDC 提供的简单易用的数据集成 API,用于帮助用户快速构建功能强大的数据同步链路,实时地同步业务数据库中的数据变更和表结构变更实时同步到数据仓库,数据湖以及其他下游系统。CDC YAML 上手门槛较低,即使没有研发背景和Flink基础,用户也可以较快地完成数据的同步和ETL加工,快速完成数据的实时入湖入仓,加速数据分析效率。

2024-12-06 16:58:10 1219

转载 活动推荐|Doris Summit Asia 2024 议程正式公开,线下报名现已启动!

一年一度的 Apache Doris 峰会再次启航,Doris Summit Asia 2024 现已开启报名,将于 2024 年 12 月 14 日在深圳正式举办。扫描图片右侧二维码即可报名2024 年,Apache Doris 迎来了 3.0 版本的正式发布。3.0 系列版本正式迈入存算分离新纪元,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多...

2024-12-04 08:01:38 102

转载 从开源到行业标准|Flink背后的中国力量

摘要:如果说,阿里云以一己之力捧红了Flink,这并不夸张。十年间,这个曾默默无闻的学术项目完成了一次惊艳逆袭,成为全球实时计算领域的“事实标准”。而这一切的背后,既有Flink自身潜力的爆发,也离不开阿里云的全力扶持。Flink Forward Asia 2024大会现场:莫问演讲中就在今日(11月29日),Flink Forward Asia 2024 在上海拉开帷幕,这场汇聚了全球开发者和行...

2024-12-02 20:03:23 158

转载 阿里重磅开源 Fluss: Flink Unified Streaming Storage

在11月29日举办的 Flink Forward Asia 2024 大会主题演讲上,阿里巴巴正式开源了 Fluss 项目(https://github.com/alibaba/fluss)。阿里巴巴开源委员会副主席王峰先生,在现场进行了 Fluss 项目的开源,赢得了现场观众的热烈反响。Fluss 项目是由阿里云智能 Flink 团队研发的一款面向流分析的下一代流存储,旨在解决流存储在分析方面长...

2024-11-29 16:15:57 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除