自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(243)
  • 资源 (1)
  • 收藏
  • 关注

原创 Caused by: java.lang.ClassNotFoundException: com.ververica.cdc.debezium.DebeziumDeserializationSchem

该问题的核心是类路径缺失或版本不兼容,需依次排查依赖配置、构建环境、部署流程及版本匹配。

2025-04-03 14:16:50 233

原创 java.lang.IllegalStateException: The “before“ field of UPDATE/DELETE message is null

Debezium 在捕获 PostgreSQL 表的变更数据(UPDATE/DELETE)时,必须获取操作前的行数据(即。执行 ALTER TABLE ... REPLICA IDENTITY FULL。PostgreSQL REPLICA IDENTITY设置。,使其完整记录变更前的行数据。验证 wal_level = logical。需要调整 PostgreSQL 表的。,导致变更日志中缺少完整的旧值。重新启动Flink CDC任务。并确保变更数据的完整捕获。Flink CDC任务报错。

2025-04-02 18:20:56 835

原创 Linux的TCP连接数到达2万,其中tcp_tw、tcp_alloc、tcp_inuse都很高,可能出现什么问题

当 TCP 连接数达到 2 万且关键指标高位运行时,需重点关注端口资源内存压力队列溢出和应用性能。通过调整内核参数、优化应用设计、使用长连接和监控工具,可以有效缓解问题。对于超大规模场景,可能需要结合负载均衡或内核旁路技术进一步优化。

2025-04-02 14:32:11 1228

原创 Flink将双流join后的结果封装成一个java对象,写入doris

首先需定义与 Doris 表结构对应的 POJO 类。假设 Join 后的结果包含userIdorderIdamount// 无参构造函数(Flink POJO 必须)// 全参构造函数// Getter/Setter 方法(Flink 反射依赖)// 其他字段类似...通过 Flink-Doris-Connector 实现 Join 结果写入 Doris 的核心步骤包括:对象封装、序列化、Sink 配置及参数调优。

2025-04-01 20:37:15 441

原创 Flink双流join中,KeySelector如何使用

在Flink双流Join操作中,用于定义两个流中元素的关联键,其核心作用是将数据按相同逻辑分区,确保相同键的元素进入同一窗口或时间区间进行关联。

2025-04-01 20:36:44 523

原创 Flink在双流Join中,window如何选择

在Flink双流Join中,窗口(Window)的选择直接影响数据关联的准确性、时效性和资源消耗。

2025-03-31 17:59:38 905

原创 ORC和Parquet同为列存储,他们有什么先天的区别

优先ORC:若使用Hive且需要事务支持,或数据重复率高、追求极致压缩。优先Parquet:若处理嵌套数据、跨平台(如Spark、数据湖),或需灵活压缩算法。两者的差异源于设计目标的根本不同:ORC偏向Hive生态的深度优化,Parquet则追求通用性与复杂数据兼容性。

2025-03-31 01:00:00 943

原创 Flink项目工程代码管理规范

通过以上规范,可确保双流 Join 项目的代码可维护性和运行稳定性。实际开发中需结合业务需求灵活调整,同时参考 Flink 官方文档进行优化。

2025-03-30 02:45:00 1629

原创 hudi和iceberg在功能和场景上都有什么优缺点

两者均在快速迭代中,Hudi 逐步增强并发能力(如异步索引),Iceberg 也在优化实时流处理(如 Flink 深度集成),需结合最新版本特性评估。Apache Hudi 和 Iceberg 作为主流数据湖表格式,在功能和适用场景上各有侧重。

2025-03-30 02:15:00 415

原创 NVIDIA H200 Tensor Core GPU简介

内存与带宽:141GB HBM3e内存(4.8TB/s带宽),容量和带宽较H100提升近2倍和1.4倍。性能提升LLM推理性能达H100的2倍(如Llama2 70B)。HPC应用性能提升最高110倍(如科学仿真)。能效与成本:相同功耗下优化TCO,降低大规模部署成本。企业支持:H200 NVL支持多GPU互联,提供灵活配置和1.7倍LLM推理加速;搭配NVIDIA AI Enterprise软件生态,简化企业AI开发与部署。技术规格。

2025-03-29 09:42:14 685

原创 NVIDIA H100 Tensor Core GPU

NVIDIA H100 Tensor Core GPU为各类工作负载提供卓越性能、可扩展性和安全性。基于NVIDIA Hopper架构的突破性创新,H100在大型语言模型推理上将性能提升30倍,为对话式AI树立行业标杆。,提供60万亿次FP64计算性能,并通过动态编程指令(DPX)实现7倍性能提升。,在保持低延迟的同时,相比A100系统性能提升达5倍,为数据中心提供最优性能与扩展能力。(注:所有性能数据均为实验室测试结果,实际应用可能有所变化,具体配置详见原始技术文档)(注:*表示支持稀疏计算)

2025-03-29 09:41:19 287

原创 英伟达GPU SKU设计核心策略

英伟达的GPU SKU(库存单位)设计基于多维度技术分层与市场需求,通过架构迭代、硬件配置差异化和应用场景细分实现产品矩阵的精准覆盖。以下是其设计策略的核心要点:英伟达通过架构代际划分构建技术壁垒,不同代际的GPU对应不同性能梯度的SKU。例如:不同代际的SKU通过核心数量(如CUDA Core、RT Core)和频率差异形成性能梯度。例如,消费级RTX 40系列中,RTX 4090与RTX 4080的核心数差异达30%,频率差距约15%,以区分高端与次旗舰市场。以下是基于图片信息整理的NVIDIA GPU

2025-03-28 16:30:50 593

原创 postgres中CREATE PUBLICATION dbz_publication FOR ALL TABLES什么用,relreplident是什么意思

通过此命令,PostgreSQL 成为一个高效的数据源,支持现代数据架构中的实时数据流转需求。实际使用时需结合订阅(复制标识决定了在逻辑复制(Logical Replication)过程中,如何唯一标识表中的一行数据。)和工具链(如 Debezium)完成端到端配置。在 PostgreSQL 中,执行。复制标识支持以下四种模式,通过。中的一个字段,用于表示表的。PostgreSQL 中的。

2025-03-28 16:06:44 920

原创 窗口函数返回值未继承时间属性报错:OVER windows‘ ordering in stream mode must be defined on a time attribute.

在 Flink SQL 中,TIMESTAMP,时间属性需要显式声明(事件时间或处理时间)才能用于窗口操作。OVERORDER BYWATERMARKPROCTIME()TIMESTAMP如果使用或生成窗口起始时间(如),但或proc_time未正确声明为时间属性,则也不会自动继承时间属性。若时间属性字段参与了计算(例如),则会被物化为普通时间戳,失去时间属性特性,导致无法用于ORDER BY。在表定义中通过WATERMARK或PROCTIME()

2025-03-27 00:45:00 1717

原创 Flink watermark的时间字段有空值,建表的时候,如何处理

并配合 Watermark 空闲检测机制,确保流处理作业的稳定性。若需更复杂的空值补偿逻辑,可结合 Flink 状态编程(如。对空值比例进行监控(如通过 Flink Metrics 或日志告警),避免因大量空值导致时间语义失效。来避免因空值导致的窗口计算异常或任务失败。在 Flink 中处理时间字段存在空值时,需通过。在 DataStream API 中通过实现。若表定义包含主键,需确保替代时间字段(如。针对因空值导致的延迟数据,通过。)的生成逻辑不影响唯一性约束。

2025-03-27 00:15:00 428

原创 数据源为postgres的多表关联flink开发需求,开发思路

此错误表明 ​PostgreSQL 数据库当前处于恢复模式(如备用节点或崩溃恢复中)​,而逻辑解码(Logical Decoding)功能(用于 CDC 数据捕获)在此模式下不可用。通过以上思路,可实现高可靠、低延迟的 PostgreSQL 多表关联 Flink 程序,需根据具体业务需求(如实时性要求、数据规模)灵活调整方案。

2025-03-26 01:30:00 1330

原创 Doris通过时间字段,按照周分组统计的sql

通过上述方法,可灵活应对不同业务场景下的按周统计需求,推荐优先使用。若需更直观的日期范围展示,可结合动态周起止日期计算。

2025-03-26 00:15:00 503

原创 数据安全动态基线定义,和安全阈值有什么区别

数据安全动态基线定义与安全阈值在目标、应用方式和功能定位上存在本质区别,以下是两者的对比分析:数据安全动态基线安全阈值数据安全动态基线的生成依赖于机器学习与规则引擎的深度融合,二者通过互补机制实现基线动态调整与风险实时感知,其核心逻辑可分为以下三个层级:无监督学习构建初始基线基于用户、设备、应用及数据的多维实体行为日志,采用核密度估计、聚类算法及孤立森林等无监督学习模型。例如:强化学习优化基线阈值在噪声干扰场景(如传感器误报、节假日流量波动),通过强化学习结合人类反馈动态调整基线阈值。例如水厂系统误判高

2025-03-25 01:00:00 639

原创 Spark 报错:ERROR Utils: Uncaught exception in thread shutdown-hook-0 java.lang.NullPointerException

针对 Spark 任务关闭阶段(线程)出现的。

2025-03-25 00:15:00 735

原创 从技术架构和生态考虑,不是单纯的配置优化,还有哪些方式可以提高spark的计算性能

从架构和生态层面提升Spark性能需打破传统计算范式,结合新型硬件、跨栈优化和生态融合。建议优先实施Catalyst优化器增强、Structured Streaming批流一体改造及GPU加速方案,可快速获得性能收益。

2025-03-24 13:39:02 1213

原创 程序员玻璃心,认知行为疗法(CBT)和CBT自我鼓励

认知行为疗法由A.T. Beck于20世纪60年代提出,是一种结构化、短程的心理治疗方法,核心观点是“认知决定情绪与行为”。

2025-03-24 03:45:00 687

原创 使用Doris broker load导入数据到带Kerberos的HA HDFS的命令详解

通过以上配置和优化,Broker Load 可高效稳定地完成 Kerberos 认证的 HDFS 数据导入

2025-03-23 09:15:00 1021

原创 Spark中Gluten配置释义,记录一下250319

gluten spark的配置参数解释

2025-03-23 08:30:00 503

原创 Doris官网上没有的一些Fe参数了,都在源码中

apache-doris-src\fe\fe-common\src\main\java\org\apache\doris\common\Config.javaapache-doris-src\be\src\common\config.cpp

2025-03-22 22:45:00 223

原创 Gluten应用场景和实践在其他大厂的干货

【代码】Gluten应用场景和实践在其他大厂的干货。

2025-03-22 12:45:00 254

原创 为什么在Linux系统中,available会比free+buff/cache的总和少很多

这段内容描述了在Linux内核中,为了更准确地估算系统可用内存,对。

2025-03-21 10:56:51 1208

原创 为什么MPP类型的数据库都很吃CPU和内存

MPP架构通过分布式与并行化设计实现了高性能,但其资源密集性本质导致CPU和内存消耗较高。合理的数据分片策略、硬件资源配置及查询优化是平衡性能与资源占用的关键。腾讯云的TDSQL-C等产品通过动态资源调度和自动化分片技术,可部分缓解这一问题。

2025-03-21 08:15:00 922

原创 通过启用Ranger插件的Hive审计日志同步到Doris做分析

实现Ranger审计日志从采集、传输到分析的全链路管理。

2025-03-20 16:28:52 1157

原创 Doris hdfs load报错detailMessage = java.lang.IllegalArgumentException: Null name not allowed

org.apache.doris.common.UserException: errCode = 2, detailMessage = errors while get file status errCode = 2, detailMessage = java.lang.IllegalArgumentException: Null name not allowed

2025-03-20 08:30:00 1172

原创 spark explain如何使用

explain是分析 SQL 或 DataFrame 执行计划的核心工具,通过不同模式可展示查询优化和执行的详细信息,默认情况下,这个语句只提供关于物理计划的信息

2025-03-19 09:58:44 1021

原创 如何通过spark history页面查看gluten是否集成成功

如果在配置、日志、Metrics或执行计划中均发现Gluten相关的有效信息(如插件加载成功、Velox任务计数为正),则表明Gluten已成功集成。较高,需确认查询是否包含Gluten尚未支持的操作(如某些UDF或复杂数据类型)

2025-03-19 09:50:11 967

原创 Apache Gluten背景、解决问题、方案都有哪些

Apache Gluten 是近年来为解决 Spark 在 CPU 密集型场景下的性能瓶颈而诞生的开源项目,其核心思路是通过本地化(Native)引擎优化 Spark 的执行效率。随着 SSD 和万兆网卡的普及,IO 性能大幅提升,传统 Spark 作业的瓶颈逐渐从 IO 转向 CPU。然而,基于 JVM 的 Spark 在 CPU 指令级优化(如 SIMD)和内存管理(如 GC 开销)方面存在天然劣势。

2025-03-16 10:16:38 854

原创 Gluten 项目贡献指南

若有必要,请先提交 GitHub Issue,并在 PR 标题中引用该 Issue 编号。通过遵循以上规范,您将为 Gluten 项目的开源协作提供高效支持。您的贡献不仅限于提交代码,还包括代码审查、改进文档、提出想法等。请在 PR 描述中详细说明修改内容,以帮助评审人员理解。欢迎为 Gluten 项目贡献力量!

2025-03-16 10:14:57 640

原创 Doris表的分区数量保持在多少范围内性能是最好的

Doris分区最佳实践

2025-03-15 17:09:05 352

原创 在windows上通过idea搭建doris fe的开发环境(快速成功版)

doris fe编译成功

2025-03-15 10:00:00 444

原创 pom.xml中配置的repository,在编译器下载依赖包没生效,怎么解决

pom.xml中配置的repository,在编译器下载依赖包没生效

2025-03-14 14:39:44 532

原创 windows10和windows11之间共享文件夹

windows10和windows11之间共享文件夹

2025-03-14 10:00:00 926

原创 cmake: symbol lookup error: cmake: undefined symbol: archive_write_add_filter_zstd

对于 CMake 运行时报错 symbol lookup error: undefined symbol: archive_write_add_filter_zstd,该问题通常是由于或导致。

2025-03-13 19:59:07 268

原创 30个节点的Doris集群,每个节点有2块7TB的SSD盘,12块8TB的机械盘,分区和分桶的最佳实践

Doris分区分桶最佳实践

2025-03-13 18:10:37 1307

原创 解析Doris编译脚本generated-source.sh的逻辑

Doris编译FE

2025-03-12 15:01:28 714

Linux常用命令以及使用样例.pdf

# 替换所有行的内容: :%s/from/to/g :%s/from/to/g : 对所有行的内容进行替换。 # 关闭防火墙 service iptables stop # 查看目录下有多少个文件 find -type -f|wc -l # 平均负载过高

2020-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除