探索 Azure Databricks 中的 PySpark 和 Koalas 数据处理
1. 库安装与管理
在运行 Databricks Runtime ML 或 Databricks Runtime for Genomics 的集群中,可以使用运行 conda 或 pip 命令的初始化脚本安装库。若初始化脚本仅包含 pip 命令,那么在笔记本中应仅使用 %pip 命令。在笔记本级别管理库,能在运行实验时分离关注点,且不影响集群上的所有笔记本。
2. PySpark API 概述
PySpark 是 Apache Spark 的 Python API,而 Apache Spark 是 Azure Databricks 的核心集群计算框架。它让用户能借助 Python 的易用性发挥分布式计算的强大功能。以下是 PySpark 的主要功能子包:
| 子包 | 说明 |
| ---- | ---- |
| PySpark DataFrames | 数据按命名列存储为行,不可变且支持延迟计算 |
| PySpark SQL 模块 | 用于处理来自各种源和格式的结构化和半结构化数据集的高级抽象模块 |
| 流数据源 | 容错且可扩展的模块,用于读取流数据,将其转换为批次,按预定义时间间隔读取,使用如 map、reduce 等函数中的复杂算法进行处理,最后写入不同文件系统 |
| MLlib | 包含多个针对集群计算优化的机器学习算法,用于分类、回归、聚类、数据准备等 |
| RDDs(弹性分布式数据集) | 位于分布式数据集之上的抽象层,是 Azure Databricks 中任何进程的构建块 |
超级会员免费看
订阅专栏 解锁全文
871

被折叠的 条评论
为什么被折叠?



