- 博客(15)
- 收藏
- 关注
原创 使用Pycharm本地spark读取table中的数据hive遇到问题?
摘要:在PyCharm 23.2中使用Python 3.8.12、PySpark 3.1.2和Hive 3.1环境时,执行Spark会话配置代码遇到问题。代码尝试通过SparkSession连接Hive仓库(hdfs://bigdata01:9820),设置元数据存储URI(thrift://bigdata01:9083),并查询mydb03.par3表数据。但在D盘创建tmp文件夹后仍出现异常,可能是HDFS路径配置或权限问题导致。代码包含临时视图创建和查询操作,最终未成功执行Spark任务。
2025-11-04 14:14:41
181
原创 Spark核心概念全解析:从数据读取到RDD与SparkSQL的深度理解
本文深入解析Apache Spark的核心机制,重点介绍数据读取方式、RDD特性和SparkSQL操作。Spark支持多种数据源读取,包括并行化集合和外部存储系统,SparkSQL提供简洁的数据访问API。RDD具备分区、计算函数等5大特征,支持转换、触发和Shuffle三类算子。文章对比了RDD、DataFrame和Dataset的区别,详细阐述了分区规则和优化建议,包括合理设置分区数、避免不必要Shuffle等最佳实践,帮助开发者全面掌握Spark数据处理能力。
2025-11-03 19:08:12
894
原创 深入理解Hive与MySQL中的EXPLAIN及Hive JOIN优化全解析
本文深入探讨了Hive与MySQL中EXPLAIN关键字的差异以及Hive JOIN优化技术。首先对比了MySQL和Hive的EXPLAIN功能,MySQL侧重于索引使用和扫描行数分析,而Hive展示的是分布式计算任务的执行计划。然后详细解析了Hive的三种JOIN类型:Map Join适用于小表JOIN大表,通过将小表加载到内存实现高效查询;SMB Join利用分桶和排序特性优化大表JOIN;Shuffle Join作为默认通用方案。每种JOIN类型都配有配置示例和工作原理说明,帮助开发者根据场景选择最佳
2025-10-31 10:24:40
1163
原创 正则表达式:文本处理的瑞士军刀
正则表达式是用于匹配和处理文本模式的强大工具,它通过特殊字符和语法规则定义字符串的匹配模式。正则表达式包含普通字符和元字符,支持多种匹配方式(如.*?的懒惰匹配)和高级功能(如捕获组、零宽断言)。它广泛应用于数据验证、文本搜索替换、日志分析等领域。虽然功能强大,但应避免过度使用复杂正则表达式以免影响性能。建议掌握基础语法,在需要处理复杂文本模式时灵活运用。
2025-10-28 12:01:08
541
原创 构筑云与AI时代的数据传输“金城汤池”:从技术到管理的全方位防御体系
本文构建了云与AI时代数据传输安全的防护体系。技术层面提出五大核心维度:高速链路加密、云原生数据安全、智能行为分析、端到端机密计算及量子安全探索,形成多层次防护。战略层面强调三大进阶方向:构建协同安全平台、实现合规审计闭环、防范"影子AI"风险。文章指出,现代数据传输安全需要技术与管理并重,将安全嵌入业务架构,才能有效应对云时代的数据流动挑战,在保障安全的前提下释放数据价值。
2025-10-28 10:17:14
266
原创 Python进阶:从文件操作到数据库交互的完整指南
本文介绍了Python中文件操作与数据库交互的核心技术。文件操作部分讲解了os模块的路径管理、文件读写及with语句的安全用法,并通过批量重命名案例演示实际应用。数据库操作部分解析了pymysql连接MySQL的基础流程,提出了封装数据库工具类的优化方案,并展示了字典解包等实用技巧。文章强调通过合理封装和模式组合,可简化开发流程、提升代码质量,最后建议读者结合实战案例深化理解,并探索文件与数据库的联动应用。全文约150字,涵盖关键技术点与实践建议。
2025-10-27 15:05:18
360
原创 Python模块化开发与高效编程实践指南
本文系统介绍了Python模块化开发的核心知识体系,包括:1)模块架构解析,涵盖标准库、自定义及第三方模块的分类与交互机制;2)第三方模块管理技巧,重点讲解pip工具使用和镜像加速方案;3)包结构设计规范,区分包与目录的本质差异;4)迭代器与生成器的实现原理及应用;5)time/datetime/re等核心模块的实战场景;6)性能优化实践。文章强调模块化是系统设计思维的体现,建议开发者从项目初期规划模块体系,通过合理划分边界和持续优化,最终实现高内聚低耦合的应用架构。
2025-10-27 14:54:49
885
原创 一个小时带你学会Python
本文系统介绍了Python面向对象编程的核心概念与应用。首先对比面向过程与面向对象思想,阐述类与对象的关系;其次详解类设计、构造方法和常用魔术方法;重点解析封装、继承、多态三大特性,包括访问控制、方法重写和多态实现;进而探讨类属性、类方法、静态方法等高级特性,以及异常处理机制;最后提供__slots__内存优化等性能技巧。全文强调面向对象设计原则(高内聚低耦合、开闭原则等),建议从简单类入手,逐步运用封装保护数据,通过继承实现代码复用,利用多态统一接口,结合异常处理提升健壮性。
2025-10-27 14:50:07
349
1
原创 ZooKeeper 的选举算法
ZooKeeper 的选举算法就像狮子王国的“民主游戏”,通过数据新旧、编号大小和多数派规则,快速选出可靠的领导者。它让分布式系统在节点故障或网络问题时依然能保持高可用性和一致性,是分布式世界的“国王制造机”!
2025-09-16 18:50:38
384
原创 让我们用一个故事来理解 HDFS 的纠删码技术
《图书馆的数学魔法:纠删码技术解析》摘要 本文通过"大数据王国图书馆"的寓言故事,生动阐释了纠删码技术原理。传统三副本策略虽保障数据安全,却面临300%的存储开销。数学家提出的纠删码方案将数据分块(如6段)并生成校验块(如3段),只需1.5倍存储即可容忍3块损坏,实现空间效率与容错能力的平衡。文章揭示了技术权衡:纠删码虽节省50%空间,但需消耗计算资源进行数据恢复,因此适用于访问频率低的冷数据。最终,图书馆采用混合策略——热数据用副本,冷数据用纠删码,为现实中的HDFS存储系统提供了优化
2025-09-16 18:40:17
278
原创 Query的勇士
《SQL冒险之旅:从基础查询到复杂分析》讲述了Query在数据库王国的探索历程。他掌握了SELECT基础查询、WHERE条件筛选、ORDER BY排序、DISTINCT去重等核心技能。随着任务升级,他学会了使用GROUP BY聚合分析和JOIN多表关联,最终完成包含子查询、分页等高级技巧的综合任务。故事通过生动比喻(如"过滤之剑"、"桥梁术法")诠释SQL概念,并总结出避免SELECT*、善用索引等实用经验。最后提供实战挑战:查询2025年注册用户的消费排行榜,演示了
2025-09-15 19:17:46
553
1
原创 小白也能听懂的hive
Hive是一个基于Hadoop的数据仓库工具,它让用户可以用类似SQL的HiveQL语言查询超大规模数据(TB/PB级)。Hive的核心功能是将杂乱的数据(如日志、订单)整理成结构化表格,并通过翻译SQL语句为MapReduce/Spark程序实现分布式计算。它大幅降低了大数据的分析门槛,特别适合离线批处理场景(如日志分析、统计报表),但无法处理实时查询和非结构化数据。简言之,Hive就是"用Excel的方式处理海量数据"的智能数据管家。
2025-09-15 19:05:08
294
原创 存储工程师不敢说的秘密:inode耗尽比磁盘满更可怕的100个理由
Linux inode是存储文件元数据的关键结构,包含权限、所有者、大小等信息。文件系统创建时分配固定数量的inode,可通过df -i检查使用率,避免耗尽问题。inode通过多级指针关联数据块,影响文件存储效率。常用操作包括查找大inode占用(find)、修复损坏(fsck)等。建议根据文件系统类型调整inode大小,预分配避免碎片,并利用inotify进行实时监控。理解inode机制对系统管理和性能优化至关重要。
2025-09-01 19:01:29
283
原创 微信小程序代码的知识点梳理
本文总结了小程序开发中的关键知识点与优化方向。在WXML结构方面,重点解析了头部区域、导航栏和商品列表的Flex布局、动态绑定及事件处理。WXSS样式部分强调了Flex布局、rpx单位应用,并指出高亮样式缺失等问题。JS逻辑部分介绍了数据初始化、事件处理和分页加载的实现方法。文章最后提出功能优化建议,包括完善样式交互、改进分页逻辑,并建议扩展筛选功能等增强用户体验的方向。全文覆盖小程序开发的核心技术点与优化思路。
2025-06-20 08:52:36
281
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅