
大数据
文章平均质量分 75
D愿你归来仍是少年
这个作者很懒,什么都没留下…
展开
-
Flink API 解析 Flink Job 依赖的checkpoint 路径
Flink API 解析 Checkpoint _metadata 中依赖的元数据路径原创 2025-02-24 11:48:13 · 204 阅读 · 0 评论 -
Python解析 Flink Job 依赖的checkpoint 路径
Python 解析 Flink _metadata 文件原创 2025-02-21 14:45:55 · 846 阅读 · 0 评论 -
RocksDB Bloom Filter 如何避免假阳性问题探索
对于 Flink 等大数据应用,合理配置 Bloom Filter 参数并监控其有效性,可大幅降低状态查询延迟,提升吞吐量。(False Positive):当 Bloom Filter 认为键存在时,实际可能不存在,这会导致无效的磁盘 I/O,影响查询性能。当键包含时间戳时,RocksDB 会在比较中剥离时间戳,仅基于用户键(User Key)判断逻辑存在性,避免因时间戳版本导致的误判。然而,其核心缺陷是存在。原创 2025-02-21 09:25:32 · 834 阅读 · 0 评论 -
Linux 多Python版本统一和 PySpark 依赖 python 包方案
PySpark 依赖 Python.zip 打包方式原创 2025-02-19 10:10:56 · 754 阅读 · 0 评论 -
解决Python升级导致PySpark任务异常方案
解决 PySpark 任务 No module named 'encodings' 问题原创 2025-02-19 11:10:20 · 307 阅读 · 0 评论