- 博客(112)
- 收藏
- 关注
原创 Flink----常见故障排除
本章聚焦 Flink 常见故障排除,涵盖多种类型。包括非法配置、各类内存异常(Java 堆空间、直接缓冲存储器、元空间)、网络缓冲区不足、超出容器内存等资源相关故障,还涉及 Checkpoint 失败与缓慢、Kafka 动态发现分区、Watermark 不更新、依赖冲突、超出文件描述符限制、脏数据导致转发失败以及通讯超时等问题,并提供了相应的排查思路与解决方法,同时给出 Flink on Yarn 其他常见错误的查询链接。
2024-12-22 18:00:00
1112
原创 Flink优化----FlinkSQL 调优
本章着重探讨 Flink SQL 调优。介绍设置空闲状态保留时间的重要性与方法,避免状态爆炸。阐述 MiniBatch 微批处理的原理、开启方式、适用场景及注意事项,其能提升吞吐、减少数据输出量。LocalGlobal 优化则通过两阶段聚合降低热点,需先开启 MiniBatch 且有相关注意点。Split Distinct 针对 COUNT DISTINCT 热点问题提供自动打散功能,也有特定开启要求与限制。多维 DISTINCT 使用 Filter 可减少状态大小和访问,总结了常用调优参数的设置代码。
2024-12-22 12:00:00
1458
原创 Flink优化----Job优化
本章聚焦 Flink 作业优化这一核心内容,先是介绍了使用 DataGen 造数据的方式及相关代码示例,涵盖 DataStream 和 SQL 两种不同场景下的应用。接着阐述算子指定 UUID 的重要性、具体指定方法以及不同指定情况在作业保存点恢复等操作时的差异。还讲解链路延迟测量机制、开启对象重用的注意事项,最后针对细粒度滑动窗口优化,分析其影响并给出有效的解决思路与案例,全方位助力 Flink 作业性能提升。
2024-12-22 06:00:00
1048
原创 Flink优化----数据倾斜
本章围绕 Flink 数据倾斜问题展开,先是介绍了判断数据倾斜存在的方法,可通过 Flink Web UI 查看各 Subtask 处理的数据量,或借助 Checkpoint detail 里不同 SubTask 的 State size 来分析。接着重点阐述了解决数据倾斜的多种策略,针对 keyBy 不同阶段出现的倾斜情况,如 keyBy 后聚合操作、keyBy 之前以及 keyBy 后的窗口聚合操作存在倾斜时,分别给出了相应的针对性解决办法,还提供了代码示例及案例提交方式,方便理解与实践操作。
2024-12-21 16:08:31
1203
原创 Flink调优----反压处理
在 Flink 大数据处理架构里,网络流控与反压机制极为关键,如同交通指挥,保障数据与系统运行。数据于节点间流动,反压若现且未妥善处理,将引发 checkpoint 时长增加、状态膨胀、资源耗竭甚至系统崩溃等连锁反应。所以,开发者与运维人员务必深谙其原理,熟练定位反压节点,知晓原因与处理策略。如此,面对复杂数据场景,方能提前预防或快速化解反压,让 Flink 系统高效稳定,为业务持续提供可靠数据支撑,推动业务顺利开展。
2024-12-21 11:19:04
1593
原创 Flink调优----资源配置调优与状态及Checkpoint调优
在大数据处理领域,Flink 作为一款强大的流处理框架,其性能优化对于高效数据处理至关重要。合理的资源配置是实现卓越性能的基石,它直接关系到 Flink 作业在处理大规模数据时的效率、稳定性以及资源利用率。而状态及 Checkpoint 调优则是确保数据处理准确性与可靠性的关键环节,能够有效应对系统故障与数据一致性挑战。通过深入探究资源配置调优以及状态和 Checkpoint 调优的策略与方法,可使 Flink 在复杂的数据处理场景中充分发挥其潜力
2024-12-21 10:50:04
1329
原创 Spark 故障排除
本文讲述了对Spark遇到的控制 reduce 端缓冲大小以避免 OOM、JVM GC 导致的shuffle 文件拉取失败、解决各种序列化导致的报错、解决算子函数返回 NULL 导致的问题、解决 YARN-CLIENT 模式导致的网卡流量激增问题、解决 YARN-CLUSTER 模式的 JVM 栈内存溢出无法执行问题、解决 SparkSQL 导致的 JVM 栈内存溢出、持久化与 chec故障的排除
2024-12-18 06:00:00
975
原创 Spark优化----Spark 数据倾斜
Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题,是由于不同的 key对应的数据量不同导致的不同 task 所处理的数据量不同的问题。
2024-12-17 20:23:54
1232
原创 SparkSQL 读写数据攻略:从基础到实战
在大数据处理领域,SparkSQL 以其强大的数据处理能力和丰富的数据源支持备受青睐。它能够高效地读取和写入多种格式的数据,无论是本地文件、分布式文件系统(如 HDFS)上的数据,还是数据库、Hive 表中的数据,都能轻松驾驭。今天,就让我们深入探究 SparkSQL 读写数据的方式,通过详细的代码示例和原理讲解,助你全面掌握这一关键技能。
2024-12-08 19:42:25
1571
原创 SparkSQL 中 DataFrame 的转换
在大数据处理领域,SparkSQL 凭借其强大的数据处理能力和高效的计算性能备受青睐。其中,DataFrame 作为重要的数据结构,掌握它与其他数据类型(如 RDD、DataSet)之间的转换操作至关重要。今天,我们就深入探讨在 Spark 中如何进行 DataFrame 的转换,帮助大家更好地驾驭 SparkSQL 处理各类数据场景。
2024-12-08 19:28:40
1275
原创 深入解析 SparkSQL:从基础到实践与优化
在大数据处理领域,Spark 作为一款强大的开源分布式计算框架,占据着举足轻重的地位。而 SparkSQL 作为 Spark 生态系统中专门针对结构化数据计算设计的关键模块,更是广泛应用于各类数据处理场景,无论是离线数据分析、实时流计算,还是机器学习任务前的数据预处理等环节,都发挥着不可替代的作用。本文将带大家全面认识 SparkSQL,从其基本概念、技术由来,到编程实战以及优化技巧,一步步揭开它的神秘面纱
2024-12-06 18:37:26
1336
原创 Flink 核心知识总结:窗口操作、TopN 案例及架构体系详解
在大数据处理领域,Flink 凭借其卓越的流批一体处理能力、高效的状态管理以及精准的时间语义把控,成为众多开发者应对复杂数据场景的得力工具。本文将围绕 Flink 的三大关键板块展开深度剖析,即 FlinkSQL 的窗口操作(涵盖滚动、滑动、累积窗口以及不同时间语义下的应用)、窗口 TopN 需求实现案例,以及 Flink 架构体系(详细解读各个核心组件及概念),旨在为读者清晰勾勒 Flink 技术框架的全貌,助力深入理解与高效运用。
2024-12-05 19:17:25
1540
原创 Flink SQL 实战:从基础开发到 Kafka 与 MySQL 交互
在大数据处理领域,Apache Flink 凭借其强大的流批一体处理能力备受青睐,而 Flink SQL 更是为开发者提供了高效便捷的数据处理方式,能以类 SQL 的语法轻松应对复杂的数据场景。今天,就让我们深入探究 Flink SQL 的开发步骤、核心概念以及常见的使用案例,包括与 Kafka 和 MySQL 的联动操作。
2024-12-05 18:59:32
1986
原创 MySQL 高效批量删除海量数据策略解析
在日常的数据库管理与运维工作中,面对海量数据的删除操作,如何做到高效、安全且不影响业务正常运转,是我们常常需要攻克的难题。今天,就结合实际遇到的几种典型场景,深入剖析在 MySQL 中应对不同量级、不同结构表数据删除的有效策略。
2024-12-03 14:00:00
1251
原创 HiveSQL 中判断字段是否包含某个值的多种方法详解
在使用 HiveSQL 进行数据处理与分析时,常常会遇到需要判断某字段是否包含特定值的场景,比如在员工信息表中查找名字包含特定字符的员工记录等。本文将详细介绍在 HiveSQL 中实现这一目的的多种方法,并对比它们各自的特点与适用场景,帮助大家更高效、灵活地处理数据。
2024-12-03 06:00:00
1370
原创 Flink 中双流 Join 的深度解析与实战
在大数据实时处理领域,Apache Flink 凭借其强大的流处理能力备受青睐。当面临多流数据关联分析场景时,双流 Join 操作至关重要。Flink DataStream API 贴心地提供了join、coGroup、intervalJoin三个算子助力我们达成双流 Join,接下来将深入探究它们的原理、使用方式及差异。
2024-12-02 12:00:00
1711
原创 Flink 中维表 Join 的实现方式与优化策略
在 Flink 大数据处理框架的实际应用场景里,常常会碰到这样的需求:进入 Flink 的实时数据,需要关联存储在外部设备(像 MySQL、HBase 等)中的数据(也就是维表),以此来得出完整准确的计算结果。本文将深入探讨 Flink 中维表 Join 的多种实现方式及其优缺点,助力大家在不同业务场景下做出合理抉择。
2024-12-02 06:00:00
1720
原创 Flink四大基石之CheckPoint(检查点) 的使用详解
在大数据流式处理领域,Apache Flink 凭借其卓越的性能和强大的功能占据重要地位。而理解 Flink 中的 Checkpoint(检查点)、重启策略以及 SavePoint(保存点)这些关键概念,对于保障流处理任务的稳定性、容错性以及可维护性至关重要。本文将深入剖析它们的原理、用法,并结合实际代码示例展示其效果,希望能帮助大家更好地掌握 Flink 相关知识。
2024-12-01 06:00:00
2817
原创 Flink四大基石之State(状态) 的使用详解
在大数据流处理领域,Apache Flink 凭借其卓越的性能和丰富的功能备受青睐。而 Flink 中的状态(State)管理机制,更是支撑复杂流处理任务的关键支柱。无论是数据去重、模式匹配还是窗口聚合分析,状态管理都发挥着不可或缺的作用。本文将深入浅出地剖析 Flink 状态相关知识,结合实际代码案例助你理解这一重要概念。
2024-11-30 17:26:23
1927
原创 Flink四大基石之Time (时间语义) 的使用详解
Watermark 是一个单独计算出来的时间戳Watermark = 当前最大的事件时间 - 最大允许的延迟时间(乱序度)Watermark可以通过改变窗口的触发时机 在 一定程度上解决数据乱序或延迟达到的问题Watermark >= 窗口结束时间 时 就会触发窗口计算(窗口中得有数据)延迟或乱序严重的数据还是丢失, 但是可以通过调大 最大允许的延迟时间(乱序度) 来解决, 或 使用后面要学习的侧道输出流来单独收集延迟或乱序严重的数据,保证数据不丢失!
2024-11-29 12:31:31
1482
原创 Flink四大基石之窗口(Window)使用详解
本文深入探讨 Flink 中高级 API 里窗口(Window)的相关知识,涵盖为什么需要窗口、其控制属性、应用代码结构、生命周期、分类,以及窗口函数的各类细节,并辅以实例进行讲解,旨在助力开发者透彻理解并熟练运用 Flink 的窗口机制处理流数据。
2024-11-28 20:48:51
2088
原创 Flink--API 之 Sink 的使用解析
在大数据处理领域,Apache Flink 以其强大的流处理和批处理能力备受青睐。而在 Flink 的数据处理流程中,Sink 操作起着至关重要的作用。经过一系列 Transformation 转换操作后,只有调用了 Sink 操作,才会产生最终的计算结果,这些数据可以写入到文件、输出到指定的网络端口、消息中间件、外部的文件系统或者是打印到控制台等。本文将深入探讨 Flink 在批处理中常见的 Sink 操作,涵盖多种类型及使用场景,帮助读者全面掌握这一关键知识点。
2024-11-28 12:00:00
1134
原创 Flink 物理分区全解析:策略、应用与实战
在大数据处理领域,Apache Flink 凭借其强大的流处理和批处理能力备受青睐。而物理分区作为 Flink 数据处理流程中至关重要的一环,能够让用户根据实际需求灵活调配数据流向,优化数据分布,提升处理效率与性能。本文将深入探讨 Flink 的物理分区策略,包括各类内置分区器的原理、用法,以及如何自定义分区规则,并结合实战代码帮助读者更好地理解与运用。
2024-11-28 06:00:00
1122
原创 Flink--API 之Transformation-转换算子的使用解析
在大数据处理领域,Apache Flink 凭借其强大的流处理和批处理能力备受青睐。而转换算子作为 Flink 编程模型中的关键部分,能够对数据进行灵活多样的处理操作,满足各种复杂业务场景需求。本文将深入介绍 Flink 中常见的转换算子,包括 map、flatMap、filter、keyBy、reduce 等,并结合详细代码示例讲解其使用方法,同时探讨 union、connect 等合并连接操作以及侧输出流等特性,帮助读者全面掌握 Flink 转换算子的精髓。
2024-11-27 16:51:55
1695
原创 Flink--API 之 Source 使用解析
在大数据处理领域,Apache Flink 作为一款强大的流式计算框架,既能应对流处理场景,也可处理批处理任务。而数据来源(Data Sources)作为整个计算流程的 “源头活水”,其多样性与合理运用至关重要。本文将深入剖析 Flink 中 Data Sources 的相关知识,并结合丰富代码示例,助力大家透彻理解与灵活运用。
2024-11-27 16:20:40
1290
1
原创 Flink--API 从任务开发到任务提交流程解析与DataStream的介绍
在大数据处理领域,Flink 凭借其卓越的流批一体特性、高效的实时处理能力以及丰富的 API,备受开发者青睐。今天,我们将深入探讨如何开发 Flink 任务,并将其打包提交到集群上运行,涵盖从基础概念到具体编码、打包、提交的完整流程,希望能帮助大家在 Flink 实践之路上少踩坑、多收获。
2024-11-26 06:00:00
1309
原创 Flink 安装与入门:开启流式计算新时代
在当今大数据蓬勃发展的时代,数据处理的时效性愈发关键。传统基于先存储再批量处理的数据方式,在面对诸如网站实时监控、异常日志即时分析等场景时,显得力不从心。随着 5G、物联网等技术的兴起,海量数据如潮水般涌来,且对实时处理需求激增,流式计算应运而生,而 Flink 作为流式计算领域的佼佼者,正散发着独特魅力,接下来就让我们深入探究 Flink 的安装与入门知识。
2024-11-25 19:48:47
1417
原创 Flume 与 Kafka 整合实战
在大数据处理的生态系统中,Flume 和 Kafka 都是非常重要的组件。Flume 擅长收集、聚合和传输大量的日志数据等,而 Kafka 则是一个高性能的分布式消息队列,能够处理海量的实时数据。将 Flume 和 Kafka 进行整合,可以构建强大的数据处理管道,实现数据的高效采集、传输和处理。本文将详细介绍 Flume 和 Kafka 整合的两种常见方式:Kafka 作为 Source 和 Kafka 作为 Sink。
2024-11-24 06:00:00
2352
原创 Kafka-Eagle 监控的安装与使用及Kafka-UI界面的安装----构建高效的 Kafka 集群监控体系
在大数据处理的世界中,Kafka 作为一款强大的分布式消息队列系统,广泛应用于数据传输与处理的各个环节。然而,在生产环境中,对 Kafka 集群的有效监控至关重要。本文将详细介绍如何使用 Kafka-Eagle 框架来监控 Kafka 集群,以及相关的安装与配置步骤,帮助大家构建一个稳定且可视化的监控环境。
2024-11-23 06:00:00
996
原创 Kafka 数据倾斜:原因、影响与解决方案
在大数据处理领域,Kafka 作为一款高性能的分布式消息队列系统,被广泛应用于数据传输、实时流处理等场景。然而,在使用 Kafka 的过程中,数据倾斜问题可能会悄然出现,影响系统的性能和数据处理的准确性。本文将深入探讨 Kafka 数据倾斜的概念、产生原因、带来的问题以及相应的解决策略,帮助读者更好地应对这一挑战。
2024-11-22 11:42:30
1567
原创 Kafka 分区分配及再平衡策略深度解析与消费者事务和数据积压的简单介绍
本文将深入探讨 Kafka 中不同的分区分配策略,包括 Range、RoundRobin、Sticky 和 CooperativeSticky,以及它们在各种场景下的再平衡表现,并结合实际案例进行详细分析,并对消费者事务和数据积压进行简单介绍。
2024-11-22 06:00:00
1478
原创 Kafka 消费者全面解析:原理、消费者 API 与Offset 位移
本文将深入探讨 Kafka 消费者的各个方面,包括消费方式、工作流程、API 用法、位移管理以及生产经验中的消费者事务等,旨在帮助读者全面理解和掌握 Kafka 消费者的相关知识与技术要点。
2024-11-21 18:15:58
1342
原创 Kafka 工作流程解析:从 Broker 工作原理、节点的服役、退役、副本的生成到数据存储与读写优化
在大数据处理领域,Kafka 作为一款高性能的分布式消息队列系统,扮演着至关重要的角色。它能够高效地处理大规模的实时数据,为众多大数据应用提供了可靠的数据传输和存储基础。本文将深入探讨 Kafka 的核心组件 ——Kafka Broker,包括其工作流程、副本机制、文件存储以及高效读写数据的原理,并分享一些生产环境中的实用经验。
2024-11-21 09:46:49
1528
原创 Java 多线程解析:线程间的安全问题、线程间的通信问题与线程间的礼让问题
在 Java 编程领域,多线程是一个极为重要的概念,它能够显著提升程序的性能和响应能力,使程序能够更加高效地处理并发任务。本文将深入探讨 Java 中创建多线程的四种方式,以及多线程编程中的一些关键知识点,包括线程与进程的区别、线程安全问题、线程间通信、集合的线程安全性以及线程池的使用等。
2024-11-21 06:00:00
808
原创 自定义 Kafka 脚本 kf-use.sh 的解析与功能与应用示例
脚本主要提供了两个核心功能:生产者性能测试和消费者性能测试,同时还具备查看可用主题列表以及退出脚本等功能。通过这些功能,我们可以对 Kafka 集群的生产和消费能力进行评估,以便优化集群配置和数据处理流程。
2024-11-20 17:12:36
1331
原创 Kafka 生产者优化与数据处理经验
在大数据处理领域,Kafka 作为一款高性能的分布式消息队列系统,被广泛应用于数据的传输、存储与处理。对于生产者而言,如何高效地将数据发送到 Kafka 集群,同时保证数据的可靠性、去重、有序性等,是至关重要的问题。本文将深入探讨 Kafka 生产者在提高吞吐量、保证数据可靠性、去重、有序性等方面的生产经验,并结合代码示例进行详细分析。
2024-11-20 06:00:00
1608
原创 Kafka 生产者全面解析:从基础原理到高级实践
在大数据处理领域,Kafka 作为一款高性能的分布式消息队列系统,扮演着至关重要的角色。而 Kafka 生产者则是数据进入 Kafka 集群的入口,其性能和可靠性直接影响着整个数据处理流程的效率和质量。本文将深入探讨 Kafka 生产者的相关知识,包括消息发送流程、API 使用、分区策略、生产经验等方面,帮助读者全面理解和掌握 Kafka 生产者的原理与实践。
2024-11-19 06:00:00
1320
原创 java中创建多线程的4种方式
在 Java 编程中,多线程是一项非常重要的技术,它能够充分利用计算机的多核处理器资源,提高程序的执行效率和响应性。本文将详细介绍 Java 中创建多线程的四种方式,包括继承 Thread 类、实现 Runnable 接口、实现 Callable 接口以及使用线程池,并对每种方式的原理、代码示例和适用场景进行深入剖析。
2024-11-18 20:40:21
1989
原创 Kafka:分布式消息系统的核心原理与安装部署
在当今大数据和实时处理的时代,消息中间件扮演着至关重要的角色。Kafka 作为其中的佼佼者,以其高吞吐量、持久性和分布式的特性,被广泛应用于各种大规模数据处理场景。本文将深入探讨 Kafka 的各个方面,包括其定义、组成成员、架构、应用场景以及安装部署和基本操作等,旨在帮助读者全面理解和掌握这一强大的技术工具。
2024-11-18 19:24:10
1195
2
SQL题目解析外卖平台数据 包含用户表users、地址表orders、商家表restaurant
2024-09-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人