13、探索 Azure Databricks 中的 PySpark 和 Koalas 数据处理

探索 Azure Databricks 中的 PySpark 和 Koalas 数据处理

1. 库安装与管理

在运行 Databricks Runtime ML 或 Databricks Runtime for Genomics 的集群中,可以使用运行 conda 或 pip 命令的初始化脚本安装库。若初始化脚本仅包含 pip 命令,那么在笔记本中应仅使用 %pip 命令。在笔记本级别管理库,能在运行实验时分离关注点,且不影响集群上的所有笔记本。

2. PySpark API 概述

PySpark 是 Apache Spark 的 Python API,而 Apache Spark 是 Azure Databricks 的核心集群计算框架。它让用户能借助 Python 的易用性发挥分布式计算的强大功能。以下是 PySpark 的主要功能子包:
| 子包 | 说明 |
| ---- | ---- |
| PySpark DataFrames | 数据按命名列存储为行,不可变且支持延迟计算 |
| PySpark SQL 模块 | 用于处理来自各种源和格式的结构化和半结构化数据集的高级抽象模块 |
| 流数据源 | 容错且可扩展的模块,用于读取流数据,将其转换为批次,按预定义时间间隔读取,使用如 map、reduce 等函数中的复杂算法进行处理,最后写入不同文件系统 |
| MLlib | 包含多个针对集群计算优化的机器学习算法,用于分类、回归、聚类、数据准备等 |
| RDDs(弹性分布式数据集) | 位于分布式数据集之上的抽象层,是 Azure Databricks 中任何进程的构建块 |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值