- 博客(16)
- 收藏
- 关注
原创 NumPy 入门:从 0 到 1 掌握 Python 数据处理利器
NumPy 的全称是 “Numerical Python”(数值 Python),简单说就是。你可能会问:“Python 本身不是有列表(list)吗?为什么还要用 NumPy?举个例子就懂了:。
2025-11-03 19:44:25
599
原创 Flume1.9 采集数据到 Hive3.1.2 实战:配置详解与 NoClassDefFoundError 报错解决
本文详细介绍了使用Flume将实时文本数据采集到Hive表的完整流程及常见问题解决方案。主要内容包括:1)环境准备,明确组件版本需求;2)Hive目标表创建步骤;3)Flume Agent的完整配置文件详解;4)重点解决NoClassDefFoundError核心报错,提供Jar包缺失的排查和修复方法;5)数据采集验证步骤;6)生产环境优化建议。文章以Flume1.9对接Hive3.1.2的实战案例,从环境配置到报错处理进行全流程拆解,帮助开发者规避常见问题,实现稳定可靠的数据实时采集入库。
2025-09-24 08:25:29
1866
原创 YARN 中 ResourceManager 故障后任务恢复实战指南
YARN中ResourceManager故障的任务恢复机制解析 本文深入分析了YARN中ResourceManager(RM)故障的影响及恢复方案。主要内容包括:1)RM故障场景分类(单点故障、脑裂问题等)及对任务的直接影响;2)YARN任务恢复核心机制,包括自动故障转移(HA)的实现原理和任务恢复流程;3)手动恢复操作指南和优化建议,涵盖配置优化、监控预警和数据持久化等方面;4)典型故障案例解析。文章提供了从理论到实践的完整解决方案,帮助用户有效应对RM故障问题,确保集群稳定运行。
2025-09-17 20:39:59
544
原创 Zookeeper 选举算法详解:从原理到实战
Zookeeper的FastLeaderElection选举算法是分布式系统协调服务的核心机制。该算法通过TCP连接实现高效投票,优先比较ZXID(事务ID)和服务器ID来确定Leader。当节点获得多数投票时成为Leader,确保集群一致性。算法优化包括TCP长连接、投票过滤和快速响应策略。建议部署奇数节点,控制网络延迟。该算法为理解分布式共识提供了实践基础,源码关键方法包括lookForLeader()和投票比较逻辑。
2025-09-17 20:28:53
1141
原创 HDFS 核心机制详解:安全模式、读写流程、心跳与 SecondaryNameNode 工作原理
HDFS四大核心机制解析:保障分布式存储稳定运行 HDFS作为Hadoop核心存储系统,其稳定运行依赖于四个关键机制:安全模式作为数据保护屏障,在集群启动/恢复时确保数据完整性;读写流程实现数据在分布式环境下的可靠存取;心跳机制维持节点间通信与容错;SecondaryNameNode则负责元数据管理,通过定期合并fsimage和edits文件减轻NameNode负担。本文详细解析了各机制的工作原理,包括安全模式的配置参数与命令操作、读写流程的交互逻辑、心跳机制的通信机制
2025-09-15 19:20:43
815
原创 HDFS 伪分布模式搭建详解(附 Shell 操作与 WordCount 测试)
本文详细介绍了HDFS伪分布模式的搭建流程,适合初学者在单台服务器上体验HDFS分布式特性。主要内容包括:1)伪分布模式概念解析;2)环境准备的6个关键步骤;3)4个核心配置文件的修改方法;4)NameNode格式化与集群启动验证;5)WordCount案例测试;6)与本地模式的差异对比。文章特别强调了常见问题和注意事项,如仅能执行一次的格式化操作、防火墙关闭等配置要点,帮助开发者避坑。通过伪分布模式,开发者可以在单机环境下完整模拟HDFS的分布式功能,为学习和测试提供便利。
2025-09-15 19:00:28
788
原创 深入理解 Linux 文件系统的核心:inode 与 block
Linux文件系统的核心机制解析:inode与block的协作原理 文章深入剖析了Linux文件系统中inode和block的工作原理。block是存储文件内容的最小单元(通常4KB),存在内部碎片问题;inode则记录文件的元数据(权限、大小、时间戳等)和block指针,但不存储文件名。文件名实际存放在目录的block中,形成"文件名→inode号"的映射关系。当访问文件时,系统通过目录找到inode,再根据inode中的指针定位block数据。文章还揭示了inode耗尽导致无法创建文
2025-09-03 08:26:29
901
1
原创 【无标题】MySQL 读写分离
MySQL读写分离通过将写操作(主库)和读操作(从库)分离,有效提升数据库性能、扩展性和可用性。核心架构包括主库处理写请求、从库处理读请求,通过中间件实现请求路由。优势包括降低主库负载、提高响应速度,但需注意主从同步延迟带来的数据一致性问题。适用读多写少的业务场景,如电商、博客系统。通过合理配置数据源和使用AOP等技术可有效实现读写分离,显著提升系统处理能力。
2025-07-29 13:16:40
1069
原创 DolphinScheduler 金融数仓任务调度常见错误与解决方案实战记录
摘要: 本文总结了DolphinScheduler在金融数仓任务调度中的常见问题及解决方案,涉及伪分布式安装、增量抽取任务、Sqoop/DataX调度等场景。安装阶段需确保JDK、MySQL、ZooKeeper等依赖配置正确;Sqoop任务需注意环境变量、SQL语法及日期格式问题;HiveSQL任务需明确数据库上下文和分区操作规范;DataX任务需校验JSON参数与资源引用。通过环境变量调整、配置文件修正和SQL优化等方法,可有效解决服务启动失败、命令缺失、数据类型不匹配等典型错误,提升调度稳定性。
2025-06-18 08:25:34
1049
原创 Hive 分区深度解析:从基础概念到实战优化
Hive分区机制通过逻辑分组提升海量数据查询效率,避免全表扫描。核心价值在于分区修剪、资源优化和业务语义化管理。实现方式包括:1)静态分区(手动指定分区值);2)动态分区(自动按数据内容生成);3)混合分区(静态与动态结合)。
2025-06-12 20:09:59
1996
原创 HDFS 集群启动原理深度解析:从 start-dfs.sh 命令看新旧集群差异
本文深入探讨了Hadoop分布式文件系统(HDFS)中start-dfs.sh命令在新老集群启动时的底层原理,重点分析了edits和fsimage文件机制在确保数据一致性和启动流程中的作用。新集群启动时,首先需要格式化Namenode,生成初始的fsimage和edits文件,随后通过start-dfs.sh命令启动Namenode和Datanode,此时集群处于就绪状态但无实际数据存储能力。老集群启动时,Namenode会进入安全模式,加载fsimage到内存并合并edits日志,确保元数据完整性,待条件
2025-05-21 20:06:36
767
原创 Yarn 详细指南:从基础概念到实战操作
Yarn(Yet Another Resource Negotiator)是Hadoop生态系统中的核心资源管理框架,负责集群资源的统一管理和任务调度。其核心组件包括ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)和Container。RM作为主节点,负责全局资源分配和调度;NM作为从节点,管理单个节点的资源;AM为应用程序申请资源并监控任务运行;Container则是资源分配的最小单位,隔离不同应用的资源使用。Yarn通过动态资源调度机制,
2025-05-20 20:20:34
1415
原创 深入理解 HDFS 的安全模式
这个参数主要关注集群的可用性,当设定一个大于 0 的值时,NameNode 在判断是否可以离开安全模式时,会确保至少有指定数量的 DataNode 是可用的,这样可以保证在退出安全模式后,集群有足够的节点来进行数据块的复制和恢复等操作。此时的 NameNode 对于客户端来说是只读的,这是因为在启动过程中,NameNode 需要完成诸多重要任务,如从所有的 DataNode 接收心跳信号和块状态报告(blockreport) ,以此来全面了解集群的状态和数据块的分布情况。二、离开安全模式的条件。
2025-05-20 20:07:02
1671
原创 加密算法(对称非对称)
中,首先使用非对称加密建立安全连接,交换对称密钥,之后的大量数据传输则使用对称加密,既保证了密钥交换的安全性,又实现了数据传输的高效性。这种方式在许多现代安全通信系统中被广泛采用。在实际应用中,非对称加密和对称加密经常结合使用,以结合两者的优势。和S/MIME协议利用非对称加密来保护邮件内容的隐私。
2025-05-11 21:03:55
698
原创 推荐MYSQL8.0的安装
mysql --> SUN公司 -->Java --> Oracle --> 所以外界一直担心mysql被干死 -->mysql创始人单干了。z 代表的意思是使用到了gzip这个软件,一般用于解压 .gz 压缩包,假如没有,就不要使用 z。--> mysql5.5的基础之上写了一个mariadb 外界也开始使用mariadb。systemctl status mysqld 查看mysql的状态。先将密码修改成一个复杂的密码:q。2、查看是否有mysql数据库。3、依次安装所需服务。
2025-05-08 08:30:09
187
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅