大数据
文章平均质量分 66
D愿你归来仍是少年
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
根据进程运行用户执行不同操作
摘要:该脚本通过查询指定进程的运行用户来执行不同操作。首先查找目标进程并获取其运行用户信息,随后根据用户类型执行相应命令:若为root用户则显示当前用户,若为hadoop用户则执行jps命令,其他用户则不执行特定操作。脚本提供了灵活的进程管理和权限控制功能。原创 2025-06-23 09:56:52 · 143 阅读 · 0 评论 -
Flink API 解析 Flink Job 依赖的checkpoint 路径
Flink API 解析 Checkpoint _metadata 中依赖的元数据路径原创 2025-02-24 11:48:13 · 316 阅读 · 0 评论 -
Python解析 Flink Job 依赖的checkpoint 路径
Python 解析 Flink _metadata 文件原创 2025-02-21 14:45:55 · 1033 阅读 · 0 评论 -
RocksDB Bloom Filter 如何避免假阳性问题探索
对于 Flink 等大数据应用,合理配置 Bloom Filter 参数并监控其有效性,可大幅降低状态查询延迟,提升吞吐量。(False Positive):当 Bloom Filter 认为键存在时,实际可能不存在,这会导致无效的磁盘 I/O,影响查询性能。当键包含时间戳时,RocksDB 会在比较中剥离时间戳,仅基于用户键(User Key)判断逻辑存在性,避免因时间戳版本导致的误判。然而,其核心缺陷是存在。原创 2025-02-21 09:25:32 · 1015 阅读 · 0 评论 -
Linux 多Python版本统一和 PySpark 依赖 python 包方案
PySpark 依赖 Python.zip 打包方式原创 2025-02-19 10:10:56 · 922 阅读 · 0 评论 -
解决Python升级导致PySpark任务异常方案
解决 PySpark 任务 No module named 'encodings' 问题原创 2025-02-19 11:10:20 · 384 阅读 · 0 评论
分享