- 博客(15)
- 收藏
- 关注
原创 PySpark DataFrame 核心概念与操作指南
方法优点缺点自动推断开发快速性能开销大,类型可能不准确字符串定义语法简洁缺乏类型校验StructType 精确定义类型安全,支持复杂结构代码量较大python复制下载# 精确Schema定义示例])# 应用Schema读取数据。
2025-06-17 12:35:13
590
原创 CentOS 7 分布式集群环境搭建指南
hostnamectl set-hostname vm01 # 在vm01执行。hostnamectl set-hostname vm02 # 在vm02执行。hostnamectl set-hostname vm03 # 在vm03执行。ssh vm03 hostname # 从vm01测试连接到vm03。ssh vm02 date # 从vm01测试连接到vm02。# 统一hosts配置(所有节点相同)# 配置SSH免密(hadoop用户)# 设置主机名(分别在对应节点执行)
2025-06-17 12:34:17
637
原创 PyCharm 社区版配置 PySpark 开发环境指南
logger.info(f"RDD内容: {nums.collect()}") # [1, 2, 3, 4].master("local[2]") \ # 使用2个核心。│ ├── etl/ # ETL模块。├── data/ # 数据文件。│ ├── input/ # 输入数据。│ ├── utils.py # 工具函数。├── src/ # 源代码。
2025-06-17 12:31:53
1028
原创 PySpark 开发环境全配置指南
display(df.limit(5).toPandas()) # 使用Jupyter的display函数。findspark.init('/usr/local/spark') # 显式指定Spark路径。logger.error(f"作业失败: {str(e)}")# 安装指定版本PySpark和Py4J(与Spark集群版本一致)logger.info("作业执行成功")# 编辑~/.bashrc或/etc/profile。# 安装Jupyter和findspark。"""创建Spark会话"""
2025-06-17 12:30:12
2061
原创 PyCharm 集成 PySpark 开发环境配置指南
bash复制下载# 解压安装包到/usr/local目录# 创建桌面快捷方式(可选)# 启动PyCharm。
2025-06-17 12:28:25
671
原创 Jupyter Notebook 集成 PySpark 开发环境配置指南
bash复制下载# 推荐使用 pip3 安装指定版本(避免与系统Python冲突)# 验证安装。
2025-06-17 12:26:35
1786
原创 Spark 单机环境搭建与交互式开发指南
已配置 Hadoop 伪分布式集群(HDFS + YARN)已安装 JDK 1.8+Ubuntu 20.04/Linux 系统。
2025-06-10 15:39:55
960
原创 Python 3.6 与 PySpark 环境搭建指南
已搭建 Hadoop 伪分布式集群(HDFS 和 YARN 正常运行)Ubuntu 20.04 系统(默认预装 Python 3.8)确保系统 Python 3.8 不被破坏(关键系统组件依赖)
2025-06-10 15:03:08
1658
原创 Spark SQL 数据操作指南
python复制下载# 配置JDBC连接属性'useSSL': 'false' # 禁用SSL连接# 配置数据库URL。
2025-06-10 14:19:14
944
原创 SSH 服务问题排查与解决方案
bash复制下载# 检查SSH服务运行状态sudo systemctl status sshd # 或 sudo service ssh status# 预期正常输出:enabled;# Active: active (running) since [时间戳]
2025-06-10 14:16:33
1073
原创 1.1 Ubuntu虚拟机安装
选择"Power Off/Log Out"→"Power Off"右键终端图标→"Add to Favorites"固定到任务栏。选择"Remove from Favorites"移除。桌面右键→"Open in Terminal"打开终端。点击右上角"Skip"和"Next"直至完成。密码建议设置为易记的密码(如123456)选择"Don't Upgrade"跳过升级。选择Ubuntu虚拟机→"编辑虚拟机设置"用户名和计算机名可设置为"spark"点击"文件"→"新建虚拟机"点击"安装程序光盘映像文件"
2025-06-10 14:00:44
217
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅