自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 PySpark DataFrame 核心概念与操作指南

方法优点缺点自动推断开发快速性能开销大,类型可能不准确字符串定义语法简洁缺乏类型校验StructType 精确定义类型安全,支持复杂结构代码量较大python复制下载# 精确Schema定义示例])# 应用Schema读取数据。

2025-06-17 12:35:13 590

原创 CentOS 7 分布式集群环境搭建指南

hostnamectl set-hostname vm01 # 在vm01执行。hostnamectl set-hostname vm02 # 在vm02执行。hostnamectl set-hostname vm03 # 在vm03执行。ssh vm03 hostname # 从vm01测试连接到vm03。ssh vm02 date # 从vm01测试连接到vm02。# 统一hosts配置(所有节点相同)# 配置SSH免密(hadoop用户)# 设置主机名(分别在对应节点执行)

2025-06-17 12:34:17 637

原创 PyCharm 社区版配置 PySpark 开发环境指南

logger.info(f"RDD内容: {nums.collect()}") # [1, 2, 3, 4].master("local[2]") \ # 使用2个核心。│ ├── etl/ # ETL模块。├── data/ # 数据文件。│ ├── input/ # 输入数据。│ ├── utils.py # 工具函数。├── src/ # 源代码。

2025-06-17 12:31:53 1028

原创 PySpark 开发环境全配置指南

display(df.limit(5).toPandas()) # 使用Jupyter的display函数。findspark.init('/usr/local/spark') # 显式指定Spark路径。logger.error(f"作业失败: {str(e)}")# 安装指定版本PySpark和Py4J(与Spark集群版本一致)logger.info("作业执行成功")# 编辑~/.bashrc或/etc/profile。# 安装Jupyter和findspark。"""创建Spark会话"""

2025-06-17 12:30:12 2061

原创 PyCharm 集成 PySpark 开发环境配置指南

bash复制下载# 解压安装包到/usr/local目录# 创建桌面快捷方式(可选)# 启动PyCharm。

2025-06-17 12:28:25 671

原创 Jupyter Notebook 集成 PySpark 开发环境配置指南

bash复制下载# 推荐使用 pip3 安装指定版本(避免与系统Python冲突)# 验证安装。

2025-06-17 12:26:35 1786

原创 Spark 单机环境搭建与交互式开发指南

已配置 Hadoop 伪分布式集群(HDFS + YARN)已安装 JDK 1.8+Ubuntu 20.04/Linux 系统。

2025-06-10 15:39:55 960

原创 Python 3.6 与 PySpark 环境搭建指南

已搭建 Hadoop 伪分布式集群(HDFS 和 YARN 正常运行)Ubuntu 20.04 系统(默认预装 Python 3.8)确保系统 Python 3.8 不被破坏(关键系统组件依赖)

2025-06-10 15:03:08 1658

原创 Hadoop 伪分布式集群环境搭建指南(HDFS & YARN 篇)

bash复制下载# 编辑环境配置文件# 设置Java路径(取消注释并修改)

2025-06-10 14:22:11 681

原创 Hadoop 伪分布式环境搭建指南

bash复制下载# 解压 JDK 到 /usr/local 目录# 创建软链接(便于版本管理)

2025-06-10 14:19:51 766

原创 Spark SQL 数据操作指南

python复制下载# 配置JDBC连接属性'useSSL': 'false' # 禁用SSL连接# 配置数据库URL。

2025-06-10 14:19:14 944

原创 SSH 服务问题排查与解决方案

bash复制下载# 检查SSH服务运行状态sudo systemctl status sshd # 或 sudo service ssh status# 预期正常输出:enabled;# Active: active (running) since [时间戳]

2025-06-10 14:16:33 1073

原创 Hadoop伪分布式集群环境搭建指南

bash复制下载# 将JDK解压至/usr/local目录# 创建软链接(可选)

2025-06-10 14:14:11 607

原创 VMware Workstation Pro 安装与Ubuntu虚拟机配置指南

注:官网下载速度较慢,建议寻找国内镜像源或现成安装包。

2025-06-10 14:07:01 991

原创 1.1 Ubuntu虚拟机安装

选择"Power Off/Log Out"→"Power Off"右键终端图标→"Add to Favorites"固定到任务栏。选择"Remove from Favorites"移除。桌面右键→"Open in Terminal"打开终端。点击右上角"Skip"和"Next"直至完成。密码建议设置为易记的密码(如123456)选择"Don't Upgrade"跳过升级。选择Ubuntu虚拟机→"编辑虚拟机设置"用户名和计算机名可设置为"spark"点击"文件"→"新建虚拟机"点击"安装程序光盘映像文件"

2025-06-10 14:00:44 217 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除