自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 5分钟上手Matplotlib,晒出你的第一个可视化作品

Matplotlib是Python最常用的数据可视化库,能够绘制折线图、柱状图、散点图、饼图等常见图表。本文介绍了Matplotlib的基础使用方法,包括:1)最简单的折线图绘制流程,从导入库、准备数据到显示图表;2)三类常用图表(柱状图、散点图、饼图)的绘制方法,涵盖数据对比、分布展示和比例分析等场景。每个示例都包含完整的代码实现和效果说明,适合初学者快速掌握Matplotlib的基本绘图功能。

2025-07-21 22:07:16 400

原创 Spark 单机模式安装与测试全攻略​

本文介绍Spark单机版安装步骤,包括上传解压安装包、配置环境变量、创建软链接等。同时说明Anaconda作为Python环境的安装配置方法。通过三个案例展示Spark应用

2025-07-14 20:13:47 869

原创 Matplotlib 安装部署与版本兼容问题解决方案(pyCharm)

摘要:Matplotlib是Python常用可视化库,支持多种图表类型。安装时可能遇到版本冲突问题,可通过升级PyCharm或降级Matplotlib至3.5x版本并搭配NumPy 1.24.4解决。测试代码展示了随机散点图的绘制方法,包括设置中文显示、生成随机数据以及添加颜色条等可视化元素。成功运行后呈现带有颜色和大小的随机分布散点图。

2025-07-05 17:06:46 1147

原创 SpringBoot 应用开发核心分层架构与实战详解

本文详细解析了SpringBoot应用的标准分层架构及实现方式。文章首先介绍了分层架构的四大层级(控制器层、服务层、数据访问层、实体层)及其职责划分,强调分层解耦的优势。

2025-06-19 20:50:01 1758 1

原创 常见的Dolphin Scheduler报错

针对DolphinScheduler报错问题,提供了三种解决方案

2025-06-18 16:22:10 671

原创 深入理解 grep 命令:从基础匹配到正则表达式的全面指南

grep是Linux系统中强大的文本搜索工具,支持正则表达式匹配。

2025-06-16 20:51:03 1112

原创 海豚调度器单机版安装实战指南

DolphinScheduler单机版部署指南介绍了该调度系统的快速安装方法。

2025-06-13 12:00:00 1279

原创 Hive 3.1.2 本地模式安装与配置详解

本文详细介绍了Hive3.1.2本地模式的安装配置流程,包括环境准备(JDK、Hadoop、MySQL)、解压安装包、配置环境变量和核心配置文件(hive-env.sh、hive-site.xml)。重点说明了HDFS目录创建、MySQL驱动配置、Hadoop文件修改以及元数据初始化步骤。最后提供了Hive服务启动方法(metastore和hiveserver2)和DataGrip连接测试方案

2025-06-13 08:00:00 1178

原创 数据库三范式:从混乱到秩序

数据库范式是关系型数据库设计的核心规则,在高规范性与查询性能之间取得平衡。设计时需根据业务需求权衡,必要时可适当反规范化以优化性能。

2025-06-12 12:00:00 1004

原创 海豚调度器YAML 配置文件语法错误:mapping values are not allowed here 解决方案

典型错误为jdbc:url等配置项未正确缩进或冒号后缺少空格。

2025-06-12 08:00:00 855

原创 帆软 BI 从入门到实战全攻略(一):安装激活与添加数据

帆软BI是中国领先的商业智能分析工具,基于Java开发,具有跨平台性和稳定性。产品提供数据可视化、报表制作等功能,支持MySQL数据库连接,可快速生成分析主题和可视化报表。

2025-06-11 19:35:46 2132

原创 linux虚拟机磁盘容量不足?一个指令解决问题

排查大文件占用空间时,若发现删除文件后空间未释放,可能是因为文件仍被进程占用。

2025-06-11 18:59:14 325

原创 秋叶包ComfyUI 新手入门攻略及实战指南

AI绘画新手入门指南

2025-06-09 18:32:44 1233

原创 Linux 文件系统核心:inode 与 block 深度解析(附实战案例与源码级原理)

inode 与 block 深度解析

2025-06-07 16:07:53 1100

原创 萌新必看:30 分钟搞懂 Spring IOC,从原理到实战一篇通

Spring框架的核心IOC(控制反转)通过容器管理对象创建与依赖注入,解决了传统Java开发中代码耦合问题。

2025-06-05 13:11:00 1149

原创 深度解析 firewalld:CentOS 防火墙管理核心操作指南

防火墙状态控制(实时诊断、动态启停、开机启动)、端口精细化管理(状态查询、永久配置、Rich规则访问控制)以及生产环境最佳实践。

2025-06-05 08:00:00 735

原创 大数据离线同步工具 DataX 深度实践与 DataX Web 可视化指南

DataX是阿里巴巴开源的高性能离线数据同步工具,支持MySQL、Hive等30+异构数据源,基于内存管道传输比传统Sqoop快3-5倍。

2025-06-04 13:09:17 2375

原创 Hive 内置函数全解析:从日期处理到 JSON 解析的实战指南

在大数据领域,Hive 作为基于 Hadoop 的数据仓库工具,其内置函数体系是数据清洗、转换和分析的核心能力之一。本文将系统梳理 Hive 常用内置函数,结合具体案例演示用法,帮助读者快速掌握数据处理技巧。

2025-06-04 08:00:00 509

原创 大数据 ETL 工具 Sqoop 深度解析与实战指南

Apache Sqoop数据迁移工具的核心理论与实战应用

2025-06-03 18:00:00 2280

原创 Java 开发神器:UUID 与 Lombok 实战指南

文介绍了Java开发中的两个实用工具。UUID部分讲解了通过UUID.randomUUID()生成36位或32位全局唯一ID的方法,适用于文件命名、数据库主键等场景。

2025-06-03 12:50:09 354

原创 《Linux 包管理实战手册:RPM 精准操作与 YUM 自动化部署从入门到精通》

RPM(RedHat Package Manager)是一种轻量级的包管理工具

2025-06-02 16:27:28 641

原创 大数据处理中数据倾斜的深度解析与优化实践

合理组合这些方法,可以有效解决数据倾斜导致的性能瓶颈问题。

2025-05-31 08:00:00 735

原创 Flume 自定义拦截器开发实战:添加时间戳与 JSON 处理

用java语言自定义一个拦截器的详细方法

2025-05-30 12:59:42 1083

原创 Flume 拦截器深度解析:数据预处理的核心利器

Flume日志采集系统中的三大常用拦截器及其应用。

2025-05-30 08:00:00 562

原创 【Hive 运维实战】一键管理 Hive 服务:Metastore 与 HiveServer2 控制脚本开发与实践

管理Hive的metastore和hiveserver2服务的启动、停止和状态查询

2025-05-29 20:11:39 513

原创 Hive SQL 中 BY 系列关键字全解析:从排序、分发到分组的核心用法

by了个by

2025-05-29 08:00:00 829

原创 【爆肝整理】Hive 压缩性能优化全攻略!从 MapReduce 底层逻辑到企业级实战(附 Snappy/LZO/Gzip 选型对比 + 避坑指南)

本文系统阐述了Hadoop生态中Hive工具的压缩优化策略。首先区分工具压缩与存储格式压缩的本质差异,指出Hive压缩主要作用于MapReduce作业的Shuffle和输出阶段。

2025-05-28 12:00:00 1169

原创 Hive 序列化 / 反序列化:如何让数据「打包发货」与「拆箱还原」?

Hive中的序列化与反序列化技术及Serde应用。首先介绍基础概念,序列化将对象转为字节流存储/传输,反序列化则相反,重点分析了Hadoop采用Writable接口优化Java序列化的问题。

2025-05-28 08:00:00 912

原创 《Hive 存储格式那些事儿:文本像散装大米占地方,二进制如压缩饼干省空间,怎么选?》

Hive支持多种存储格式,主要分为纯文本格式(TEXTFILE)和二进制格式(SEQUENCEFILE、ORC、PARQUET)。TEXTFILE为默认格式,可直接查看但无压缩;二进制格式支持压缩和高效读写,是大数据场景的首选。

2025-05-27 20:18:40 883

原创 Hive 分桶(Bucketing)深度解析:原理、实战与核心概念对比

分桶技术通过哈希算法将数据按表内字段细粒度划分到多个桶中,解决分区数据不均衡问题。其核心优势包括:优化大表JOIN性能(相同字段分桶时避免全表扫描)、支持高效数据抽样、实现数据均衡分布。

2025-05-26 20:28:50 1820

原创 Hive 分区详解:从基础概念到实战应用

本文系统介绍了Hive分区技术,包括分区的作用(提升查询效率、增强数据隔离性)、实现方式及实战应用。

2025-05-26 18:45:48 1297

原创 分布式协调服务 ZooKeeper 深度解析与实战指南

ZooKeeper是Apache开源的分布式协调服务,主要用于解决分布式系统中的一致性、可靠性和协作问题。

2025-05-23 12:00:00 1167

原创 Hive 复杂数据类型实战:从 Array 到 Struct,一篇搞懂集合类数据处理

Hive作为基于Hadoop的分布式数据存储与计算工具,提供了Array、Map、Struct三种复杂数据类型,用于处理嵌套、多维的业务场景。

2025-05-23 08:00:00 2367

原创 Hive 开发提效必备技巧:当前数据库显示与本地化模式配置​

分享的两个 Hive 实用技巧 —— 当前数据库显示和本地化模式配置,可有效提升开发阶段的操作便捷性和任务执行效率。同时,针对常见的元数据异常、内存溢出和 YARN 资源分配问题提供了具体解决方案。

2025-05-22 08:00:00 1308

原创 HDFS NameNode 联邦机制与高可用方案解析

通过多个NameNode节点共同管理元数据,实现命名空间的水平拆分。

2025-05-21 12:00:00 1136

原创 手把手教你搭建 Hadoop Namenode 高可用集群(HA)

Hadoop高可用集群的搭建步骤和注意事项。

2025-05-21 08:30:00 1130

原创 Zookeeper 集群安装与脚本化管理详解

一次性搞定安装zookeeper

2025-05-20 13:06:22 740

原创 ZooKeeper 选举机制全解析:角色分工 + 选举指标 + 实战流程,萌新也能秒懂!

在分布式系统中,集群内的节点通常分为三种角色:Leader、Follower和Observer。

2025-05-20 08:30:00 583

原创 深入理解 Hadoop 核心组件 Yarn:架构、配置与实战

Yarn采用主从架构,由ResourceManager、NodeManager、Container和ApplicationMaster四大组件协同工作,确保资源的高效分配和任务管理。在配置与搭建实战中,通过关键配置步骤和启动命令,可以快速部署Hadoop集群。

2025-05-19 13:04:18 1366

原创 【Hadoop 小剧场】SecondaryNamenode:小秘的工作日常与核心使命

SecondaryNamenode的存在不仅防止了日志爆炸,还提供了轻量级的检查点,支持快速恢复元数据和集群状态监控。

2025-05-19 08:30:00 897

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除