- 博客(300)
- 资源 (1)
- 收藏
- 关注
原创 id_rsa open ssh private key和rsa private key区别:Caused by: invalid privatekey:[B***
将 OpenSSH 格式私钥转换为 PKCS#1 标准格式,确保 Java 工具能正确解析
2025-08-14 15:31:20
705
原创 Spark在什么情况下CBO才会判断失误,如何避免
CBO 判断失误的核心原因是“统计信息不可靠”或“数据特性超出建模能力”。通过定期更新统计信息用 Hint 干预关键计划处理数据倾斜和简化复杂查询,可大幅减少失误概率。实际应用中,需结合 Spark UI 监控和执行计划分析,持续优化统计信息和查询逻辑,让 CBO 更好地发挥作用。
2025-08-08 15:15:02
838
原创 Sort Merge Join为什么是Spark中最优的join
Sort Merge Join 通过 “先分区(聚合同 Key)→ 再排序(整理顺序)→ 最后合并(线性匹配)” 的流程,将分布式环境下的大表连接转化为可并行的局部有序数据匹配,在内存有限、数据量大的场景中展现出远超 Hash Join 或 Broadcast Join 的稳定性和效率,因此成为 Spark 等框架处理大表连接的首选策略。
2025-07-31 14:24:23
1016
原创 第一层nginx访问url如何透传到第二层nginx
实现第一层 Nginx 到第二层 Nginx 的 URL 完整透传,适用于需要多级代理且保留原始请求路径的场景。
2025-07-23 15:12:23
878
原创 如何解决flink job有101个task,已完成100个,还有1个还在运行,但是已完成的100个task对应taskmanager不释放问题
显著提升 Flink 集群的资源利用率,避免因少数 Task 阻塞导致的资源浪费。
2025-07-18 19:33:54
631
原创 如何解决一个flink on yarn集群上已经跑了一个job,再提交第二个job的时候,task报java heap size oom的问题
先通过YARN UI确认集群剩余资源,判断是“资源不足”还是“配置不合理”;若资源不足:降低现有Job的并行度/内存配置,或隔离队列;若配置不合理:调整TaskManager堆内存参数(如长期解决:扩容YARN集群资源,或优化Job代码避免内存浪费。通过以上步骤,可逐步定位并解决“第二个Job提交时Task OOM”的问题。核心原则是“让资源分配与实际需求匹配”,避免过度占用或配置不足。
2025-07-18 19:32:38
684
原创 flink sql读hive catalog数据,将string类型的时间戳数据排序后写入kafka,如何保障写入kafka的数据是有序的
实现从 Hive 到 Kafka 的有序数据传输。
2025-07-16 17:03:06
687
原创 flink sql如何对hive string类型的时间戳进行排序
通过先转换时间类型再排序,可有效解决 Hive 字符串时间戳的排序问题。注意根据实际格式选择正确的转换函数,并结合执行模式优化性能。
2025-07-16 16:53:44
541
原创 Doris的数据类型json和variant区别
如果数据严格符合 JSON 格式且需要复杂查询,选 JSON;如果数据类型多样或结构多变,选 Variant。
2025-07-08 16:00:29
605
原创 Linux中程序的limits中的Max open files的配置由哪些参数决定
有效提升系统允许的最大文件打开数,避免 "Too many open files" 错误。
2025-07-07 15:44:01
532
原创 在已有生产环境的主机上,安装docker需要注意什么
在生产环境主机上安装 Docker 需谨慎,避免影响现有服务。通过以上步骤,可确保 Docker 在生产环境中安全、稳定运行,同时避免对现有服务造成影响。
2025-07-02 15:45:20
1147
原创 成为一名大数据平台SRE需要具备哪些技能?
领域核心技能大数据平台Hadoop/HDFS/YARN、Spark/Flink、Hive/HBase、Kafka、数据湖SRE方法论SLO/SLA、自动化运维、混沌工程、故障排查、容量规划编程Python/Shell/Java、SQL、分布式计算框架开发系统基础Linux、网络协议、分布式系统理论软技能跨团队协作、文档编写、技术方案设计通过技术深度(如精通Flink原理)工程实践(如落地自动化监控系统)方法论(如SLO驱动的可靠性提升)
2025-07-01 19:57:56
1155
原创 成为一名大数据平台SRE需要具备哪些基础技能-附录
合理分配执行与存储内存,优先序列化缓存RDD,谨慎使用堆外内存,结合GC调优,可显著提升Spark作业性能。
2025-07-01 19:57:41
797
原创 windows安装wsl、Ubuntu、docker desktop
Windows系统安装WSL、Ubuntu及Docker Desktop的完整流程整合
2025-06-30 15:44:46
950
原创 Doris集群优化和治理常见的问题答案
可以查看是否命中索引、是否触发Scan、Join方式、是否下推计算等信息,帮助优化查询语句。可用于限制并发、CPU、内存等资源,实现多租户隔离。合理使用索引能显著提升查询性能。
2025-06-27 09:00:00
1166
原创 spark executor的内存大小必须设置为yarn container内存的整数倍吗
在 YARN 集群模式下运行 Spark 时,Executor 内存大小无需严格设置为 YARN Container 内存的整数倍,但必须遵循 YARN 的内存分配规则。
2025-06-24 00:30:00
464
原创 为什么现在用hive的越来越少,用spark的越来越多
Spark 替代 Hive 的本质是 “磁盘计算 vs 内存计算” 、 “单一批处理 vs 批流融合” 的代际差,其背后驱动力来自业务的实时化、智能化、云原生化需求。未来随着实时数仓与 AI 的结合加深,Spark 的优势将进一步扩大。
2025-06-19 14:26:13
985
原创 hudi和iceberg的列存储格式是如何选型的
Hudi与Iceberg在列存储格式的选型策略上存在显著差异,其设计选择直接影响数据更新效率、查询性能及生态兼容性。
2025-06-19 11:12:19
907
原创 Linux下如何使用shell脚本导出elasticsearch中某一个index的数据为本地csv文件
通过此脚本可实现高效、可控的ES数据导出,特别适合自动化运维场景。
2025-06-05 17:17:19
1202
原创 Linux将已经做成raid10的数据盘,拆分成raid0
要将已配置为RAID 10的数据盘拆分为RAID 0,需遵循以下步骤。注意:此操作会破坏现有数据,请务必提前备份所有重要数据。
2025-05-28 10:21:53
462
原创 NL2SQL代表,Vanna
Vanna 的核心是一个 Python 包,它利用检索增强技术,帮助你通过大型语言模型为数据库生成准确的 SQL 查询。
2025-05-26 16:32:53
1232
原创 为什么使用ollama运行的模型不用gpu也可以使用
Ollama 能够在无需 GPU 的情况下运行大语言模型(LLM),主要得益于其轻量化设计、量化技术优化和硬件自适应机制。
2025-05-26 11:09:06
1607
原创 Requested data length 138968994 is longer than maximum configured RPC length 134217728
Hadoop集群中出现java.io.IOException错误,原因是客户端发送的RPC请求数据长度(约132.5MB)超过了服务端配置的最大限制(128MB)。解决方案包括:1)修改Hadoop配置文件,增加ipc.server.max.request.size参数值至256MB;2)优化客户端数据传输逻辑,减少单次请求数据量;3)检查网络和资源限制,确保服务端有足够内存处理大请求。修改配置后需重启Hadoop服务,并通过日志监控RPC请求是否正常。此外,建议使用监控工具预警类似问题,并考虑升级Hado
2025-05-12 16:59:28
1018
原创 哨兵模式Redis集群主从节点数据一致性保障方案
在哨兵模式的Redis集群中,保障主从节点数据一致性的核心在于同步机制、故障转移和参数优化。首先,主从同步机制结合全量同步和增量同步,通过repl_baklog环形缓冲区和offset判断数据差异,优化建议包括增大缓冲区容量和启用无磁盘复制。其次,哨兵模式通过主观下线、客观下线和选举新主节点实现自动故障转移,避免脑裂问题。参数优化方面,配置合理的同步超时时间、缓冲区容量和最小从节点数,架构设计上采用链式复制和多哨兵部署。最后,通过实时监控工具和日志分析,定期校验数据一致性,确保系统稳定运行。
2025-05-09 10:04:30
662
原创 deepseek-r1 1.5b 7b 8b 14b 32b 70b 671b,有什么区别
DeepSeek-R1系列通过参数分级覆盖全场景需求:轻量级模型(1.5B-8B)实现普惠化AI,中大规模模型(14B-70B)满足专业领域需求,顶级模型(671B)探索技术边界。选型需综合任务复杂度、硬件预算和数据安全要求。
2025-05-01 01:00:00
2590
Linux常用命令以及使用样例.pdf
2020-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人