13、探索 Azure Databricks 中的 PySpark 和 Koalas 数据处理

最新推荐文章于 2025-08-15 14:13:10 发布

a1b2c

最新推荐文章于 2025-08-15 14:13:10 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁Azure Databricks：从入门到精通文章标签： Azure Databricks PySpark Koalas

本文链接：https://blog.youkuaiyun.com/a1b2c/article/details/150692946

解锁Azure Databricks：从入门到精通专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索 Azure Databricks 中的 PySpark 和 Koalas 数据处理

1. 库安装与管理

在运行 Databricks Runtime ML 或 Databricks Runtime for Genomics 的集群中，可以使用运行 conda 或 pip 命令的初始化脚本安装库。若初始化脚本仅包含 pip 命令，那么在笔记本中应仅使用 %pip 命令。在笔记本级别管理库，能在运行实验时分离关注点，且不影响集群上的所有笔记本。

2. PySpark API 概述

PySpark 是 Apache Spark 的 Python API，而 Apache Spark 是 Azure Databricks 的核心集群计算框架。它让用户能借助 Python 的易用性发挥分布式计算的强大功能。以下是 PySpark 的主要功能子包：
| 子包 | 说明 |
| ---- | ---- |
| PySpark DataFrames | 数据按命名列存储为行，不可变且支持延迟计算 |
| PySpark SQL 模块 | 用于处理来自各种源和格式的结构化和半结构化数据集的高级抽象模块 |
| 流数据源 | 容错且可扩展的模块，用于读取流数据，将其转换为批次，按预定义时间间隔读取，使用如 map、reduce 等函数中的复杂算法进行处理，最后写入不同文件系统 |
| MLlib | 包含多个针对集群计算优化的机器学习算法，用于分类、回归、聚类、数据准备等 |
| RDDs（弹性分布式数据集） | 位于分布式数据集之上的抽象层，是 Azure Databricks 中任何进程的构建块 |