
Flink
文章平均质量分 78
flink
风情客家__
简述需要300字以内_(¦3」∠)_
展开
-
Flink CDC 技术对比与分析
位于高低水位线之间、与被捕获表相关的 binlog 事件(上图中的黄色方块)即为全量数据在读取阶段发生的数据变化,CDC source 会将这部分增量数据合并至现有快照,合并完成后即可获得与源数据库完全一致的实时快照,并且在此过程中无需对数据库进行加锁,不会影响线上业务的正常运行。2022 年 11 月,Flink CDC 社区发布了最新的 2.3 版本,对 MySQL CDC 进行了诸多稳定性和稳定性改进,新增了 Db2 CDC 连接器,MongoDB CDC 连接器接入了增量快照框架。转载 2024-05-13 10:58:07 · 407 阅读 · 0 评论 -
Flink 读写Kafka总结
总结Flink读写Kafka。转载 2023-07-06 09:51:56 · 1341 阅读 · 0 评论 -
Flink 流批一体在 Shopee 的大规模实践
所以我们一直想优化这个流程,在最近发布的 1.16 中,支持了接入外部 log 的功能,我们针对日志较少的 Batch 任务,直接使用该特性跳转到 yarn 的 history log,十分方便查看问题 Task 的全量日志。我们最后使用了自己开发的 SlotGroup 级别的资源配置,整体思路是不同的 SlotGroup 申请不同规格的 TM,Slot 依然是均分 TaskManager 的资源,但可以通过为不同的 Operator 设置不同的 SlotGroup,进而设置不同的资源量。转载 2023-06-17 21:52:22 · 118 阅读 · 0 评论 -
Flink 的分布式缓存使用步骤详解
Flink提供了一个类似于Hadoop的分布式缓存,让并行运行实例的函数可以在本地访问。使用ExecutionEnvironment实例对本地的或者远程的文件(例如:HDFS上的文件),为缓存文件指定一个名字注册该缓存文件!-广播变量将数据广播到各个TaskManager的内存中,分布式缓存广播到各个TaskManager的本地文件系统。4. 对 成绩 数据集进行map转换,将(学生ID, 学科, 分数)转换为(学生姓名,学科,分数)将文本转换为元组(学生ID,学生姓名),再转换为List。转载 2023-06-17 21:45:14 · 558 阅读 · 0 评论 -
flink 滚动窗口、滑动窗口、会话窗口、全局窗口
根据分配数据的规则,窗口的具体实现可以分为 4 类:滚动窗口(Tumbling Window)、滑动窗口(Sliding Window)、会话窗口(Session Window),以及全局窗口(Global Window)转载 2023-04-23 13:40:24 · 1446 阅读 · 0 评论 -
Flink打印窗口的开始时间和结束时间
Flink用水位线和窗口机制配合来处理乱序事件,保证窗口计算数据的正确性,当水位线超过窗口结束时间的时候,就会触发窗口计算水位线是动态生成的,根据进入窗口的最大事件时间-允许延迟时间滚动时间窗口:按照固定的时间长度对数据进行分组,窗口之间没有重叠,例如,5秒的滚动窗口。开始时间为当前窗口大小的整数倍,结束时间为开始时间加上窗口大小滑动时间窗口:按照固定的时间长度对数据进行分组,窗口之间有重叠,例如,5秒的滑动窗口,每2秒钟滑动一次。转载 2023-04-23 11:21:52 · 729 阅读 · 0 评论 -
FlinkX本地DEBUG调试
1、在IDEA中file--open--选择FlinkX源码,将项目导入到IDEA中。用户在本地进行DEBUG能方便理解FlinkX原理和解决数据同步中出现的异常问题。1、用户已经按照开始文档要求在本地下载编译好FlinkX源码。转载 2023-04-20 11:50:48 · 387 阅读 · 0 评论 -
FlinkX快速开始
FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL binlog,Kafka等。转载 2023-04-20 11:37:29 · 242 阅读 · 0 评论 -
FlinkX的安装与使用(异构数据同步工具——flinkx)
FlinkX是由袋鼠云开源基于Flink的分布式离线和实时相结合的数据同步框架,既可以采集静态的数据比如:MYSQL,HDFS等,也可以采集实时变化的数据比如:等。目前官方已经支持多种异构数据源之间高效的数据同步。原创 2023-04-20 11:10:13 · 1134 阅读 · 0 评论 -
FlinkX简介(什么是FlinkX?)
当产生业务数据或Flink程序引起的采集进程中断时,可基于Flink定期存储的快照,对流数据的读取节点进行保存,从而在进行故障修复时,可选择历史保存的数据断点进行续跑操作,保证数据的完整性。主要应用于大数据开发平台的数据同步/数据集成模块,通常采用将底层高效的同步插件和界面化的配置方式相结合的方式,使大数据开发人员可简洁、快速的完成数据同步任务开发,实现将业务数据库的数据同步至大数据存储平台,从而进行数据建模开发,以及数据开发完成后,将大数据处理好的结果数据同步至业务的应用数据库,供企业数据业务使用。转载 2023-04-20 10:54:16 · 3320 阅读 · 0 评论 -
Flinkx/Datax/Flink-CDC 优劣势对比
FlinkX是一款基于Flink的分布式离线/实时数据同步插件,可实现多种异构数据源高效的数据同步,其由袋鼠云于2016年初步研发完成,目前有稳定的研发团队持续维护,已在Github上开源(开源地址详见文章末尾),并维护该开源社区。目前已完成批流统一,离线计算与流计算的数据同步任务都可基于FlinkX实现。FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL binlog,Kafka等。原创 2023-04-20 10:40:03 · 3722 阅读 · 0 评论 -
Flink流式计算处理
参考文章:Flink流式计算处理Storm缺点:1. 并不能保证exactly-once(精确一次),2. 能保证低延迟,但不能保证高吞吐(即便是它能够保证的正确性级别高,其开销也相当大)3. Storm Trident是对Storm的延伸,它的底层流处理引擎就是基于微批处理方法来进行计算的, 从而实现了exactly-once语义, 但是在延迟性方面付出了很大的代价.Spark Streamming缺点:Spark通过间歇性的批处理作业来模拟流处理,会导致开发和运维相互交错转载 2021-09-30 13:53:39 · 1022 阅读 · 0 评论 -
Flink学习资源合集
参考文章:Flink最强学习资源合集!原创 2021-07-27 11:30:59 · 218 阅读 · 0 评论 -
Flink技术原理
参考文章:Flink技术原理Flink简介Flink概述:Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并发化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink与Storm类似,属于事件驱动型实时流系统。Flink特点:Streaming-first、流处理引擎。 Fault-tolerant,容错,可靠性,checkpoint。 Scalable,可扩展性,1000节点以上。 Performance,高转载 2021-05-12 16:25:38 · 713 阅读 · 0 评论 -
Flink三种时间机制简介
参考文章:flink 三种时间机制_Flink1.10入门:时间机制简介一、概述上篇文章介绍了Window窗口机制的相关知识,这里我们介绍下Flink的另外一个核心概念“Event Time机制”,本篇文章只介绍相关概念不讲实战,实战会结合Window窗口机制一起讲解。二、Flink中的三种时间机制Flink在流处理程序中支持三种时间的概念,分别是EventTime、ProcessingTime、IngestionTime,Flink流式处理中,绝大部分的业务都会使用Even...转载 2021-04-16 14:15:21 · 1270 阅读 · 0 评论 -
Flink 类型和序列化机制简介
参考文章:Flink 类型和序列化机制简介使用 Flink 编写处理逻辑时,新手总是容易被林林总总的概念所混淆:为什么 Flink 有那么多的类型声明方式?BasicTypeInfo.STRING_TYPE_INFO、Types.STRING 、Types.STRING() 有何区别?TypeInfoFactory 又是什么?TypeInformation.of 和 TypeHint 是如何使用的呢?接下来本文将逐步解密 Flink 的类型和序列化机制。Flink 的类型分类转载 2021-03-12 16:44:46 · 618 阅读 · 0 评论 -
Flink面试题
参考文章:Flink面试,看这篇就足够了1.Flink是如何实现exactly-once语义的基于Flink的checkpoint机制,Flink的checkpoint是基于Chandy-Lamport算法的分布式一致性快照,详情请见《Flink是如何实现exactly-once语义的》2.Flink时间类型的分类和各自的实现原理?对于流式数据处理,最大的特点就是数据具有时间的属性,Flink根据时间的产生位置分为三种类型,事件生成时间(Event Time)、事件接入时间(Inges原创 2021-02-22 14:53:02 · 507 阅读 · 0 评论 -
Chandy-Lamport算法核心解读
参考文章:Chandy-Lamport算法核心解读简介本文会介绍论文《Distributed Snapshots: Determining Global States of Distributed Systems》以及其中Chandy-Lamport算法的核心原理,原论文地址https://www.microsoft.com/en-us/research/uploads/prod/2016/12/Determining-Global-States-of-a-Distributed-System.转载 2021-02-22 11:17:44 · 2023 阅读 · 0 评论 -
Flink如何处理乱序数据?
参考文章:Flink如何处理乱序数据?本章主要针对Flink Time中的Event Time、Ingestion Time、Processing Time以及Watermark进行详细讲解。1 TimeStream数据中的Time(时间)分为以下3种。Event Time:事件产生的时间,它通常由事件中的时间戳描述。 Ingestion Time:事件进入Flink的时间。 Processing Time:事件被处理时当前系统的时间。这几种时间的对应关系如图1所示。图1转载 2021-02-22 11:01:23 · 4123 阅读 · 0 评论 -
Flink 的时间类型
参考文章:Flink 的时间类型对于流式数据处理,最大的特点就是数据具有时间的属性,Flink根据时间的产生位置分为三种类型,事件生成时间(Event Time)、事件接入时间(Ingestion Time)、事件处理时间(Processing Time)。用户可以根据具体业务灵活选择时间类型。1、事件时间(Event Time):事件时间是每个独立事件在产生它的设备上发生的时间,这个时间在事件进入Flink之前就已经嵌入到事件中,时间顺序取决于事件产生的地方,和下游...转载 2021-02-22 10:01:20 · 2027 阅读 · 0 评论 -
Flink是如何实现exactly-once语义的
参考文章:Flink是如何实现exactly-once语义的Flink跟其他的流计算引擎相比,最突出或者做的最好的就是状态的管理.什么是状态呢?比如我们在平时的开发中,需要对数据进行count,sum,max等操作,这些中间的结果(即是状态)是需要保存的,因为要不断的更新,这些值或者变量就可以理解为是一种状态,拿读取kafka为例,我们需要记录数据读取的位置(即是偏移量),并保存offest,这时offest也可以理解为是一种状态.Flink是怎么保证容错恢复的时候保证数据没有丢失也没有数据的冗余呢转载 2021-02-22 09:53:04 · 400 阅读 · 0 评论 -
Flink总结
参考文章:Flink总结1. Flink简介Apache Flink作为一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎,是当前实时处理领域的一颗炙手可热的新星1.1 flink技术栈Flink是一个分层架构的系统,每一层所包含的组件都提供了特定的抽象,用来服务于上层组件。1.2 flink 特点可提供准确的结果产出,即使遇到乱序数据、迟到数据; 有状态可容错(轻量级),可以无感知地从失败中恢复并保持exactly-once的语义(也可以降级为at-least-o转载 2020-09-27 09:51:42 · 446 阅读 · 0 评论 -
Flink简介
参考文章:Flink编程1. 认知flinkFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算2. 主要特点2.1 事件驱动型(Event-driven)事件驱动型应用是一类具有状态的应用,从一个或多个事件流提取数据,根据到来的事件触发计算,状态更新或其他外部动作,典型的是kafka类的消息队列,SparkStreaming微批次:事件驱动型:2.2 观象 =>流&批批处理有界、持久、大量,非常适合需要访问全套记录才转载 2020-07-09 15:49:37 · 287 阅读 · 0 评论 -
Flink 重启策略
参考文章:Flink 重启策略Flink支持不同的重启策略,可以控制在发生故障时如何重新启动作业。可以使用默认重新启动策略启动集群,该策略在未定义任何特定于作业的重新启动策略时始终使用。如果使用重新启动策略提交作业,此策略将覆盖群集的默认设置。重启(Restart Strategies)策略种类:固定延迟重启策略(Fixed Delay Restart Strategy) 故障率重启策略(Failure Rate Restart Strategy) 没有重启策略(No Restart St转载 2020-07-09 14:50:29 · 846 阅读 · 0 评论 -
Flink之local模式运行环境搭建
Flink下载(没有windows版本)https://flink.apache.org/downloads.html将压缩包下载后,上传至linux服务器,进行解压缩。进入解压缩后的bin目录下,启动:[root@bigdata01 bin]# ./start-cluster.sh点开浏览器输入linuxIP端口为8081打开网页...原创 2020-07-08 14:40:49 · 669 阅读 · 0 评论 -
使用flink(blink)进行用户行为分析
参考文章:使用flink(blink)进行用户行为分析BlinkBlink是阿里云在Apache Flink基础上深度改进的实时计算平台,同Flink一致Blink旨在将流处理和批处理统一,但Blink相对于社区版Flink,在稳定性上有很多优化,在某些场景特别是在大规模场景会比Flink更加稳定。Blink的另一个重大改进是实现了全新的 Flink SQL 技术栈,在功能上,Blink支...转载 2020-04-21 15:59:31 · 1242 阅读 · 0 评论 -
利用Flink实现超大规模用户行为分析
参考:利用Flink实现超大规模用户行为分析Flink 作为底层的流处理框架。主要出于以下几点原因:第一,Flink 是一个纯流式系统,吞吐量实际测试可达 100K EPS。而不像某些框架是用 mini batch 的模式来达到所谓的流式处理的;第二,面对不同的用户数据格式,我们必须支持多种数据源,这一点上 Flink 内置的对多种数据源的支持(CSV,Kafka,Hbase,Text,...转载 2020-04-28 09:19:45 · 722 阅读 · 0 评论 -
机器学习及flinkML算法学习
参考文章:机器学习及flinkML算法学习机器学习概念机器学习算法根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或者做出决定。机器学习分为分类、回归、聚类等,每种都有不一样的目标。应用场景和处理流程所有的算法都需要定义每个数据点的特征(feature)集->输入; 正确的定义特征才是机器学习中最有挑战的部分。 大多数算法...转载 2020-04-17 17:26:13 · 1616 阅读 · 1 评论 -
快速起步Apache Flink,这远比我们看到的更强大
参考文章:快速起步Apache Flink,这远比我们看到的更强大2020 年初,Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,意味着 Cloudera 的全球客户都将能够使用 Flink 进行流数据处理。那么,被认为是 Storm 最佳替代的 Apache Flink,哪些出...转载 2020-04-13 10:14:25 · 421 阅读 · 0 评论 -
Flink开发环境搭建指南
参考文章:Apache Flink-编程指南-项目设置Flink开发-IDEA scala开发环境搭建怎样用 Idea 搭建flink项目1.搭建java-flink开发项目pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/...原创 2020-04-03 16:32:49 · 841 阅读 · 0 评论 -
Flink初探-为什么选择Flink
参考文章:Flink初探-为什么选择Flink本文主要记录一些关于Flink与storm,spark的区别, 优势, 劣势, 以及为什么这么多公司都转向Flink.What Is Flink一个通俗易懂的概念: Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理.这是对Flink最简单的认识, 也最容易引起疑惑, 它和storm和spar...转载 2020-04-03 09:35:14 · 873 阅读 · 0 评论 -
Flink集群部署--Standalone模式
参考文章:在CDH集群安装Flink1. 下载安装包查看自己的hadoop版本和scala版本, 这里是hadoop 2.6, scala 2.11wget https://archive.apache.org/dist/flink/flink-1.7.2/flink-1.7.2-bin-hadoop26-scala_2.11.tgz2. 解压tar -zxf flink-...转载 2020-04-02 21:14:31 · 921 阅读 · 1 评论 -
实战场景 Flink读取kafka数据,处理以后写入到ElasticSearch
参考文章:实战场景 Flink读取kafka数据,处理以后写入到ElasticSearch添加pom: <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka-0.9_2.11</arti...转载 2020-02-22 14:06:59 · 2794 阅读 · 0 评论 -
Flink的入门简介
参考文章:Flink(一)Flink的入门简介Flink(二)CentOS7.5搭建Flink1.6.1分布式集群Flink(三)Flink开发IDEA环境搭建与测试Flink百度百科Flink初探-为什么选择Flink一.Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,...转载 2020-02-03 10:05:29 · 410 阅读 · 0 评论 -
Flink集群部署详细步骤--参考
参考文章:Flink集群部署详细步骤转载 2020-02-11 15:14:38 · 490 阅读 · 1 评论 -
在 Cloudera Data Flow 上运行你的第一个 Flink 例子
参考文章:在 Cloudera Data Flow 上运行你的第一个 Flink 例子0727-6.3.0-在CDH上运行你的第一个Flink例子转载 2020-02-11 15:02:12 · 277 阅读 · 0 评论 -
开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)
参考文章:开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO 郭炜 序现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Gr...转载 2020-02-06 23:01:42 · 1575 阅读 · 1 评论 -
实时计算框架 Flink 在教育行业的应用实践
参考文章:实时计算框架 Flink 在教育行业的应用实践如今,越来越多的业务场景要求 OLTP 系统能及时得到业务数据计算、分析后的结果,这就需要实时的流式计算如 Flink 等来保障。例如,在 TB 级别数据量的数据库中,通过 SQL 语句或相关 API 直接对原始数据进行大规模关联、聚合操作,是无法做到在极短的时间内通过接口反馈到前端进行展示的。若想实现大规模数据的 “即席查询”,就须用实...转载 2020-01-16 14:35:36 · 536 阅读 · 0 评论 -
如何基于Flink+TensorFlow打造实时智能异常检测平台?
参考文章:如何基于Flink+TensorFlow打造实时智能异常检测平台?Flink 已经渐渐成为实时计算引擎的首选之一,从简单的实时 ETL 到复杂的 CEP 场景,Flink 都能够很好地驾驭。本文整理自携程实时计算负责人潘国庆在 QCon 全球软件开发大会(北京站)2019 的演讲,他介绍了携程如何基于 Flink 与 TensorFlow 构建实时智能异常检测平台,以解决规则告警系...转载 2020-01-16 14:00:16 · 828 阅读 · 0 评论 -
Apache 流框架 Flink,Spark Streaming,Storm对比分析(二)
本文内容接上一篇Apache 流框架 Flink,Spark Streaming,Storm对比分析(一) 2.Spark Streaming架构及特性分析 2.1 基本架构 基于是spark core的spark streaming架构。 Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark,也就是把Spark Streaming的输入数 据按照b...转载 2018-05-12 16:09:17 · 633 阅读 · 0 评论