- 博客(58)
- 收藏
- 关注
原创 5分钟上手Matplotlib,晒出你的第一个可视化作品
Matplotlib是Python最常用的数据可视化库,能够绘制折线图、柱状图、散点图、饼图等常见图表。本文介绍了Matplotlib的基础使用方法,包括:1)最简单的折线图绘制流程,从导入库、准备数据到显示图表;2)三类常用图表(柱状图、散点图、饼图)的绘制方法,涵盖数据对比、分布展示和比例分析等场景。每个示例都包含完整的代码实现和效果说明,适合初学者快速掌握Matplotlib的基本绘图功能。
2025-07-21 22:07:16
400
原创 Spark 单机模式安装与测试全攻略
本文介绍Spark单机版安装步骤,包括上传解压安装包、配置环境变量、创建软链接等。同时说明Anaconda作为Python环境的安装配置方法。通过三个案例展示Spark应用
2025-07-14 20:13:47
869
原创 Matplotlib 安装部署与版本兼容问题解决方案(pyCharm)
摘要:Matplotlib是Python常用可视化库,支持多种图表类型。安装时可能遇到版本冲突问题,可通过升级PyCharm或降级Matplotlib至3.5x版本并搭配NumPy 1.24.4解决。测试代码展示了随机散点图的绘制方法,包括设置中文显示、生成随机数据以及添加颜色条等可视化元素。成功运行后呈现带有颜色和大小的随机分布散点图。
2025-07-05 17:06:46
1147
原创 SpringBoot 应用开发核心分层架构与实战详解
本文详细解析了SpringBoot应用的标准分层架构及实现方式。文章首先介绍了分层架构的四大层级(控制器层、服务层、数据访问层、实体层)及其职责划分,强调分层解耦的优势。
2025-06-19 20:50:01
1758
1
原创 Hive 3.1.2 本地模式安装与配置详解
本文详细介绍了Hive3.1.2本地模式的安装配置流程,包括环境准备(JDK、Hadoop、MySQL)、解压安装包、配置环境变量和核心配置文件(hive-env.sh、hive-site.xml)。重点说明了HDFS目录创建、MySQL驱动配置、Hadoop文件修改以及元数据初始化步骤。最后提供了Hive服务启动方法(metastore和hiveserver2)和DataGrip连接测试方案
2025-06-13 08:00:00
1178
原创 数据库三范式:从混乱到秩序
数据库范式是关系型数据库设计的核心规则,在高规范性与查询性能之间取得平衡。设计时需根据业务需求权衡,必要时可适当反规范化以优化性能。
2025-06-12 12:00:00
1004
原创 海豚调度器YAML 配置文件语法错误:mapping values are not allowed here 解决方案
典型错误为jdbc:url等配置项未正确缩进或冒号后缺少空格。
2025-06-12 08:00:00
855
原创 帆软 BI 从入门到实战全攻略(一):安装激活与添加数据
帆软BI是中国领先的商业智能分析工具,基于Java开发,具有跨平台性和稳定性。产品提供数据可视化、报表制作等功能,支持MySQL数据库连接,可快速生成分析主题和可视化报表。
2025-06-11 19:35:46
2132
原创 萌新必看:30 分钟搞懂 Spring IOC,从原理到实战一篇通
Spring框架的核心IOC(控制反转)通过容器管理对象创建与依赖注入,解决了传统Java开发中代码耦合问题。
2025-06-05 13:11:00
1149
原创 深度解析 firewalld:CentOS 防火墙管理核心操作指南
防火墙状态控制(实时诊断、动态启停、开机启动)、端口精细化管理(状态查询、永久配置、Rich规则访问控制)以及生产环境最佳实践。
2025-06-05 08:00:00
735
原创 大数据离线同步工具 DataX 深度实践与 DataX Web 可视化指南
DataX是阿里巴巴开源的高性能离线数据同步工具,支持MySQL、Hive等30+异构数据源,基于内存管道传输比传统Sqoop快3-5倍。
2025-06-04 13:09:17
2375
原创 Hive 内置函数全解析:从日期处理到 JSON 解析的实战指南
在大数据领域,Hive 作为基于 Hadoop 的数据仓库工具,其内置函数体系是数据清洗、转换和分析的核心能力之一。本文将系统梳理 Hive 常用内置函数,结合具体案例演示用法,帮助读者快速掌握数据处理技巧。
2025-06-04 08:00:00
509
原创 Java 开发神器:UUID 与 Lombok 实战指南
文介绍了Java开发中的两个实用工具。UUID部分讲解了通过UUID.randomUUID()生成36位或32位全局唯一ID的方法,适用于文件命名、数据库主键等场景。
2025-06-03 12:50:09
354
原创 《Linux 包管理实战手册:RPM 精准操作与 YUM 自动化部署从入门到精通》
RPM(RedHat Package Manager)是一种轻量级的包管理工具
2025-06-02 16:27:28
641
原创 【Hive 运维实战】一键管理 Hive 服务:Metastore 与 HiveServer2 控制脚本开发与实践
管理Hive的metastore和hiveserver2服务的启动、停止和状态查询
2025-05-29 20:11:39
513
原创 【爆肝整理】Hive 压缩性能优化全攻略!从 MapReduce 底层逻辑到企业级实战(附 Snappy/LZO/Gzip 选型对比 + 避坑指南)
本文系统阐述了Hadoop生态中Hive工具的压缩优化策略。首先区分工具压缩与存储格式压缩的本质差异,指出Hive压缩主要作用于MapReduce作业的Shuffle和输出阶段。
2025-05-28 12:00:00
1169
原创 Hive 序列化 / 反序列化:如何让数据「打包发货」与「拆箱还原」?
Hive中的序列化与反序列化技术及Serde应用。首先介绍基础概念,序列化将对象转为字节流存储/传输,反序列化则相反,重点分析了Hadoop采用Writable接口优化Java序列化的问题。
2025-05-28 08:00:00
912
原创 《Hive 存储格式那些事儿:文本像散装大米占地方,二进制如压缩饼干省空间,怎么选?》
Hive支持多种存储格式,主要分为纯文本格式(TEXTFILE)和二进制格式(SEQUENCEFILE、ORC、PARQUET)。TEXTFILE为默认格式,可直接查看但无压缩;二进制格式支持压缩和高效读写,是大数据场景的首选。
2025-05-27 20:18:40
883
原创 Hive 分桶(Bucketing)深度解析:原理、实战与核心概念对比
分桶技术通过哈希算法将数据按表内字段细粒度划分到多个桶中,解决分区数据不均衡问题。其核心优势包括:优化大表JOIN性能(相同字段分桶时避免全表扫描)、支持高效数据抽样、实现数据均衡分布。
2025-05-26 20:28:50
1820
原创 分布式协调服务 ZooKeeper 深度解析与实战指南
ZooKeeper是Apache开源的分布式协调服务,主要用于解决分布式系统中的一致性、可靠性和协作问题。
2025-05-23 12:00:00
1167
原创 Hive 复杂数据类型实战:从 Array 到 Struct,一篇搞懂集合类数据处理
Hive作为基于Hadoop的分布式数据存储与计算工具,提供了Array、Map、Struct三种复杂数据类型,用于处理嵌套、多维的业务场景。
2025-05-23 08:00:00
2367
原创 Hive 开发提效必备技巧:当前数据库显示与本地化模式配置
分享的两个 Hive 实用技巧 —— 当前数据库显示和本地化模式配置,可有效提升开发阶段的操作便捷性和任务执行效率。同时,针对常见的元数据异常、内存溢出和 YARN 资源分配问题提供了具体解决方案。
2025-05-22 08:00:00
1308
原创 ZooKeeper 选举机制全解析:角色分工 + 选举指标 + 实战流程,萌新也能秒懂!
在分布式系统中,集群内的节点通常分为三种角色:Leader、Follower和Observer。
2025-05-20 08:30:00
583
原创 深入理解 Hadoop 核心组件 Yarn:架构、配置与实战
Yarn采用主从架构,由ResourceManager、NodeManager、Container和ApplicationMaster四大组件协同工作,确保资源的高效分配和任务管理。在配置与搭建实战中,通过关键配置步骤和启动命令,可以快速部署Hadoop集群。
2025-05-19 13:04:18
1366
原创 【Hadoop 小剧场】SecondaryNamenode:小秘的工作日常与核心使命
SecondaryNamenode的存在不仅防止了日志爆炸,还提供了轻量级的检查点,支持快速恢复元数据和集群状态监控。
2025-05-19 08:30:00
897
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅