- 博客(243)
- 资源 (1)
- 收藏
- 关注
原创 Caused by: java.lang.ClassNotFoundException: com.ververica.cdc.debezium.DebeziumDeserializationSchem
该问题的核心是类路径缺失或版本不兼容,需依次排查依赖配置、构建环境、部署流程及版本匹配。
2025-04-03 14:16:50
233
原创 java.lang.IllegalStateException: The “before“ field of UPDATE/DELETE message is null
Debezium 在捕获 PostgreSQL 表的变更数据(UPDATE/DELETE)时,必须获取操作前的行数据(即。执行 ALTER TABLE ... REPLICA IDENTITY FULL。PostgreSQL REPLICA IDENTITY设置。,使其完整记录变更前的行数据。验证 wal_level = logical。需要调整 PostgreSQL 表的。,导致变更日志中缺少完整的旧值。重新启动Flink CDC任务。并确保变更数据的完整捕获。Flink CDC任务报错。
2025-04-02 18:20:56
835
原创 Linux的TCP连接数到达2万,其中tcp_tw、tcp_alloc、tcp_inuse都很高,可能出现什么问题
当 TCP 连接数达到 2 万且关键指标高位运行时,需重点关注端口资源内存压力队列溢出和应用性能。通过调整内核参数、优化应用设计、使用长连接和监控工具,可以有效缓解问题。对于超大规模场景,可能需要结合负载均衡或内核旁路技术进一步优化。
2025-04-02 14:32:11
1228
原创 Flink将双流join后的结果封装成一个java对象,写入doris
首先需定义与 Doris 表结构对应的 POJO 类。假设 Join 后的结果包含userIdorderIdamount// 无参构造函数(Flink POJO 必须)// 全参构造函数// Getter/Setter 方法(Flink 反射依赖)// 其他字段类似...通过 Flink-Doris-Connector 实现 Join 结果写入 Doris 的核心步骤包括:对象封装、序列化、Sink 配置及参数调优。
2025-04-01 20:37:15
441
原创 Flink双流join中,KeySelector如何使用
在Flink双流Join操作中,用于定义两个流中元素的关联键,其核心作用是将数据按相同逻辑分区,确保相同键的元素进入同一窗口或时间区间进行关联。
2025-04-01 20:36:44
523
原创 Flink在双流Join中,window如何选择
在Flink双流Join中,窗口(Window)的选择直接影响数据关联的准确性、时效性和资源消耗。
2025-03-31 17:59:38
905
原创 ORC和Parquet同为列存储,他们有什么先天的区别
优先ORC:若使用Hive且需要事务支持,或数据重复率高、追求极致压缩。优先Parquet:若处理嵌套数据、跨平台(如Spark、数据湖),或需灵活压缩算法。两者的差异源于设计目标的根本不同:ORC偏向Hive生态的深度优化,Parquet则追求通用性与复杂数据兼容性。
2025-03-31 01:00:00
943
原创 Flink项目工程代码管理规范
通过以上规范,可确保双流 Join 项目的代码可维护性和运行稳定性。实际开发中需结合业务需求灵活调整,同时参考 Flink 官方文档进行优化。
2025-03-30 02:45:00
1629
原创 hudi和iceberg在功能和场景上都有什么优缺点
两者均在快速迭代中,Hudi 逐步增强并发能力(如异步索引),Iceberg 也在优化实时流处理(如 Flink 深度集成),需结合最新版本特性评估。Apache Hudi 和 Iceberg 作为主流数据湖表格式,在功能和适用场景上各有侧重。
2025-03-30 02:15:00
415
原创 NVIDIA H200 Tensor Core GPU简介
内存与带宽:141GB HBM3e内存(4.8TB/s带宽),容量和带宽较H100提升近2倍和1.4倍。性能提升LLM推理性能达H100的2倍(如Llama2 70B)。HPC应用性能提升最高110倍(如科学仿真)。能效与成本:相同功耗下优化TCO,降低大规模部署成本。企业支持:H200 NVL支持多GPU互联,提供灵活配置和1.7倍LLM推理加速;搭配NVIDIA AI Enterprise软件生态,简化企业AI开发与部署。技术规格。
2025-03-29 09:42:14
685
原创 NVIDIA H100 Tensor Core GPU
NVIDIA H100 Tensor Core GPU为各类工作负载提供卓越性能、可扩展性和安全性。基于NVIDIA Hopper架构的突破性创新,H100在大型语言模型推理上将性能提升30倍,为对话式AI树立行业标杆。,提供60万亿次FP64计算性能,并通过动态编程指令(DPX)实现7倍性能提升。,在保持低延迟的同时,相比A100系统性能提升达5倍,为数据中心提供最优性能与扩展能力。(注:所有性能数据均为实验室测试结果,实际应用可能有所变化,具体配置详见原始技术文档)(注:*表示支持稀疏计算)
2025-03-29 09:41:19
287
原创 英伟达GPU SKU设计核心策略
英伟达的GPU SKU(库存单位)设计基于多维度技术分层与市场需求,通过架构迭代、硬件配置差异化和应用场景细分实现产品矩阵的精准覆盖。以下是其设计策略的核心要点:英伟达通过架构代际划分构建技术壁垒,不同代际的GPU对应不同性能梯度的SKU。例如:不同代际的SKU通过核心数量(如CUDA Core、RT Core)和频率差异形成性能梯度。例如,消费级RTX 40系列中,RTX 4090与RTX 4080的核心数差异达30%,频率差距约15%,以区分高端与次旗舰市场。以下是基于图片信息整理的NVIDIA GPU
2025-03-28 16:30:50
593
原创 postgres中CREATE PUBLICATION dbz_publication FOR ALL TABLES什么用,relreplident是什么意思
通过此命令,PostgreSQL 成为一个高效的数据源,支持现代数据架构中的实时数据流转需求。实际使用时需结合订阅(复制标识决定了在逻辑复制(Logical Replication)过程中,如何唯一标识表中的一行数据。)和工具链(如 Debezium)完成端到端配置。在 PostgreSQL 中,执行。复制标识支持以下四种模式,通过。中的一个字段,用于表示表的。PostgreSQL 中的。
2025-03-28 16:06:44
920
原创 窗口函数返回值未继承时间属性报错:OVER windows‘ ordering in stream mode must be defined on a time attribute.
在 Flink SQL 中,TIMESTAMP,时间属性需要显式声明(事件时间或处理时间)才能用于窗口操作。OVERORDER BYWATERMARKPROCTIME()TIMESTAMP如果使用或生成窗口起始时间(如),但或proc_time未正确声明为时间属性,则也不会自动继承时间属性。若时间属性字段参与了计算(例如),则会被物化为普通时间戳,失去时间属性特性,导致无法用于ORDER BY。在表定义中通过WATERMARK或PROCTIME()
2025-03-27 00:45:00
1717
原创 Flink watermark的时间字段有空值,建表的时候,如何处理
并配合 Watermark 空闲检测机制,确保流处理作业的稳定性。若需更复杂的空值补偿逻辑,可结合 Flink 状态编程(如。对空值比例进行监控(如通过 Flink Metrics 或日志告警),避免因大量空值导致时间语义失效。来避免因空值导致的窗口计算异常或任务失败。在 Flink 中处理时间字段存在空值时,需通过。在 DataStream API 中通过实现。若表定义包含主键,需确保替代时间字段(如。针对因空值导致的延迟数据,通过。)的生成逻辑不影响唯一性约束。
2025-03-27 00:15:00
428
原创 数据源为postgres的多表关联flink开发需求,开发思路
此错误表明 PostgreSQL 数据库当前处于恢复模式(如备用节点或崩溃恢复中),而逻辑解码(Logical Decoding)功能(用于 CDC 数据捕获)在此模式下不可用。通过以上思路,可实现高可靠、低延迟的 PostgreSQL 多表关联 Flink 程序,需根据具体业务需求(如实时性要求、数据规模)灵活调整方案。
2025-03-26 01:30:00
1330
原创 Doris通过时间字段,按照周分组统计的sql
通过上述方法,可灵活应对不同业务场景下的按周统计需求,推荐优先使用。若需更直观的日期范围展示,可结合动态周起止日期计算。
2025-03-26 00:15:00
503
原创 数据安全动态基线定义,和安全阈值有什么区别
数据安全动态基线定义与安全阈值在目标、应用方式和功能定位上存在本质区别,以下是两者的对比分析:数据安全动态基线安全阈值数据安全动态基线的生成依赖于机器学习与规则引擎的深度融合,二者通过互补机制实现基线动态调整与风险实时感知,其核心逻辑可分为以下三个层级:无监督学习构建初始基线基于用户、设备、应用及数据的多维实体行为日志,采用核密度估计、聚类算法及孤立森林等无监督学习模型。例如:强化学习优化基线阈值在噪声干扰场景(如传感器误报、节假日流量波动),通过强化学习结合人类反馈动态调整基线阈值。例如水厂系统误判高
2025-03-25 01:00:00
639
原创 Spark 报错:ERROR Utils: Uncaught exception in thread shutdown-hook-0 java.lang.NullPointerException
针对 Spark 任务关闭阶段(线程)出现的。
2025-03-25 00:15:00
735
原创 从技术架构和生态考虑,不是单纯的配置优化,还有哪些方式可以提高spark的计算性能
从架构和生态层面提升Spark性能需打破传统计算范式,结合新型硬件、跨栈优化和生态融合。建议优先实施Catalyst优化器增强、Structured Streaming批流一体改造及GPU加速方案,可快速获得性能收益。
2025-03-24 13:39:02
1213
原创 程序员玻璃心,认知行为疗法(CBT)和CBT自我鼓励
认知行为疗法由A.T. Beck于20世纪60年代提出,是一种结构化、短程的心理治疗方法,核心观点是“认知决定情绪与行为”。
2025-03-24 03:45:00
687
原创 使用Doris broker load导入数据到带Kerberos的HA HDFS的命令详解
通过以上配置和优化,Broker Load 可高效稳定地完成 Kerberos 认证的 HDFS 数据导入
2025-03-23 09:15:00
1021
原创 Doris官网上没有的一些Fe参数了,都在源码中
apache-doris-src\fe\fe-common\src\main\java\org\apache\doris\common\Config.javaapache-doris-src\be\src\common\config.cpp
2025-03-22 22:45:00
223
原创 为什么在Linux系统中,available会比free+buff/cache的总和少很多
这段内容描述了在Linux内核中,为了更准确地估算系统可用内存,对。
2025-03-21 10:56:51
1208
原创 为什么MPP类型的数据库都很吃CPU和内存
MPP架构通过分布式与并行化设计实现了高性能,但其资源密集性本质导致CPU和内存消耗较高。合理的数据分片策略、硬件资源配置及查询优化是平衡性能与资源占用的关键。腾讯云的TDSQL-C等产品通过动态资源调度和自动化分片技术,可部分缓解这一问题。
2025-03-21 08:15:00
922
原创 Doris hdfs load报错detailMessage = java.lang.IllegalArgumentException: Null name not allowed
org.apache.doris.common.UserException: errCode = 2, detailMessage = errors while get file status errCode = 2, detailMessage = java.lang.IllegalArgumentException: Null name not allowed
2025-03-20 08:30:00
1172
原创 spark explain如何使用
explain是分析 SQL 或 DataFrame 执行计划的核心工具,通过不同模式可展示查询优化和执行的详细信息,默认情况下,这个语句只提供关于物理计划的信息
2025-03-19 09:58:44
1021
原创 如何通过spark history页面查看gluten是否集成成功
如果在配置、日志、Metrics或执行计划中均发现Gluten相关的有效信息(如插件加载成功、Velox任务计数为正),则表明Gluten已成功集成。较高,需确认查询是否包含Gluten尚未支持的操作(如某些UDF或复杂数据类型)
2025-03-19 09:50:11
967
原创 Apache Gluten背景、解决问题、方案都有哪些
Apache Gluten 是近年来为解决 Spark 在 CPU 密集型场景下的性能瓶颈而诞生的开源项目,其核心思路是通过本地化(Native)引擎优化 Spark 的执行效率。随着 SSD 和万兆网卡的普及,IO 性能大幅提升,传统 Spark 作业的瓶颈逐渐从 IO 转向 CPU。然而,基于 JVM 的 Spark 在 CPU 指令级优化(如 SIMD)和内存管理(如 GC 开销)方面存在天然劣势。
2025-03-16 10:16:38
854
原创 Gluten 项目贡献指南
若有必要,请先提交 GitHub Issue,并在 PR 标题中引用该 Issue 编号。通过遵循以上规范,您将为 Gluten 项目的开源协作提供高效支持。您的贡献不仅限于提交代码,还包括代码审查、改进文档、提出想法等。请在 PR 描述中详细说明修改内容,以帮助评审人员理解。欢迎为 Gluten 项目贡献力量!
2025-03-16 10:14:57
640
原创 pom.xml中配置的repository,在编译器下载依赖包没生效,怎么解决
pom.xml中配置的repository,在编译器下载依赖包没生效
2025-03-14 14:39:44
532
原创 cmake: symbol lookup error: cmake: undefined symbol: archive_write_add_filter_zstd
对于 CMake 运行时报错 symbol lookup error: undefined symbol: archive_write_add_filter_zstd,该问题通常是由于或导致。
2025-03-13 19:59:07
268
Linux常用命令以及使用样例.pdf
2020-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人