- 博客(9)
- 收藏
- 关注
原创 Pandas 入门到实战:数据分析必备工具详解
Pandas数据分析利器:核心功能与应用指南 Pandas是Python中强大的开源数据分析库,提供高效的数据结构和丰富功能。其核心数据结构包括一维Series和二维DataFrame,支持数据清洗、预处理、统计分析等操作。Pandas具备数据读取/导出、可视化集成、时间序列处理等能力,并针对大规模数据进行了性能优化。安装只需pip install pandas即可。Series作为基础数据结构,支持自定义索引和多种数据类型,提供索引访问、统计描述、缺失值处理等实用方法。通过简洁的API,Pandas显著提
2025-07-16 22:06:40
1043
原创 数仓思想之拉链表:深度解析与实战应用
摘要: 拉链表是数据仓库中处理缓慢变化维(SCD)的核心技术,通过记录数据的生命周期(生效/失效日期)追踪历史变化,平衡存储空间与数据完整性。其原理是增量更新:关闭旧版本(标记失效日期)并插入新版本(生效日期设为当前)。适用于客户信息、员工信息等低频变化但需保留历史的场景,支持历史数据分析。实现时需注意事务一致性、性能优化(分区/索引)及定期清理旧数据。Hive等平台可通过SQL创建和更新拉链表,是数据工程师管理历史数据的重要工具。
2025-06-25 20:22:48
881
原创 DolphinScheduler执行sqoop工作流报错Caused by: java.lang.ClassNotFoundException: Class QueryResult not found
在使用DolphinScheduler执行sqoop工作流报错,报错信息如下解决办法有两种,如下。
2025-06-18 08:14:58
460
原创 Hive大数据处理中的数据倾斜问题及解决方案
大数据处理中数据倾斜问题与解决方案 数据倾斜是分布式计算中的常见问题,表现为数据分布不均导致部分节点负载过重,影响系统性能。主要分为单表group by倾斜和多表join倾斜两类。 解决方案: 数据类型不一致:将不同类型统一转换,如字符串转数字。 大量null值处理:异常null值直接过滤,必要null值赋随机值分散处理。 单表group by优化: 启用map端聚合参数(hive.map.aggr) 设置负载均衡参数(hive.groupby.skewindata) 增加reduce任务数量 多表join
2025-05-28 22:14:30
1179
原创 ZooKeeper 选举机制深度解析(面试必知)
ZooKeeper作为分布式系统中的关键协调服务组件,其选举机制是确保系统高可用性和一致性的核心。本文深入剖析了ZooKeeper的选举机制,包括集群中的角色(Leader、Follower、Observer)及其职责,选举的基础要素(epoch、zxid、myid),以及选举流程的细节(初始阶段、投票轮次、网络分区处理)。文章还探讨了选举机制的优势,如快速选出Leader、确保数据一致性,并举例说明了其在互联网金融系统中的应用。最后,总结了面试中常见的考点,帮助读者在面试中清晰阐述ZooKeeper选举机
2025-05-20 20:22:11
778
原创 Hadoop伪分布模式搭建教程
本文详细介绍了在单台服务器上搭建Hadoop伪分布模式的步骤,适合开发和学习使用。首先,安装JDK并配置环境变量,接着安装Hadoop并进行相关配置。为确保集群正常运行,关闭防火墙、设置免密登录、修改Linux安全机制,并配置host映射。随后,修改Hadoop的核心配置文件,格式化namenode并启动集群。最后,通过浏览器访问HDFS集群,并运行WordCount示例验证集群功能。整个过程涵盖了从环境准备到集群启动的完整流程,帮助开发者快速上手Hadoop伪分布模式。
2025-05-12 20:15:39
1384
原创 Shell 脚本中的管道机制:高效数据处理的利器
管道,顾名思义,是一种在命令行中用于连接多个命令的机制。它使用竖线符号作为连接符,将一个命令的输出传递给下一个命令作为输入,从而实现数据的连续处理,就像接力赛中运动员们传递接力棒一样,数据在各个命令之间有序地流转。管道机制是 Shell 脚本中一个极其重要的功能,它为我们提供了一种强大而灵活的工具,用于实现复杂的数据处理和任务自动化。通过合理使用管道,我们可以将多个命令紧密相连,高效地完成数据过滤、排序、统计、转换等任务,大大提升 Shell 脚本的效率和可读性。
2025-05-10 11:09:54
876
原创 Shell 脚本中的潜在风险与改进:避免因参数缺失导致的系统崩溃
在Shell脚本编写过程中,忽视参数检查可能导致严重问题。本文通过一个批量重命名文件的脚本案例,展示了未检查输入参数时的风险:如果未提供目录参数,脚本将试图重命名整个文件系统的文件,可能导致系统崩溃。为解决这一问题,改进后的脚本首先检查是否提供了有效的目录参数,并在处理文件前确认其为文件而非目录,从而避免了潜在的系统风险。这一案例强调了在脚本开发中考虑安全性和健壮性的重要性,通过简单的检查机制可以显著提高脚本的可靠性。
2025-05-10 09:42:52
569
1
原创 Linux用户管理详解
普通用户修改自己的口令时,passwd命令会先询问原口令,验证后再要求用户输入两遍新口令,如果两次输入的口令一致,则将这个口令指定给用户;而超级用户为用户指定口令时,就不需要知道原口令。此命令删除用户mostarc在系统文件中(主要是/etc/passwd, /etc/shadow, /etc/group等)的记录,同时删除用户的主目录。常用的选项包括-c, -d, -m, -g, -G, -s, -u以及-o等,这些选项的意义与useradd命令中的选项一样,可以为用户指定新的资源值。
2025-05-07 20:23:04
555
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅