《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

最新推荐文章于 2025-12-03 14:31:14 发布

原创最新推荐文章于 2025-12-03 14:31:14 发布 · 1.4k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #数据挖掘 #大数据 #数据科学 #PySpark

PySpark大数据分析实战专栏收录该内容

28 篇文章

订阅专栏

本文介绍了《PySpark大数据分析实战》中的章节，详细讲解了Databricks云服务模式的基本概念，包括工作空间、Notebook、Cluster、DBFS和作业，以及其在数据科学和企业级数据分析中的应用。

📋 博主简介

💖 作者简介：大家好，我是wux_labs。😜
热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。
通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。
通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Databricks的使用有丰富的经验。
📝 个人主页：wux_labs，如果您对我还算满意，请关注一下吧~🔥
📝 个人社区：数据科学社区，如果您是数据科学爱好者，一起来交流吧~🔥
🎉 请支持我：欢迎大家点赞👍+收藏⭐️+吐槽📝，您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念

前言

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容：云服务模式Databricks介绍基本概念。

图书在：当当、京东、机械工业出版社以及各大书店有售！

除了自己部署Spark的集群环境，Spark的商业母公司还提供了基于云环境的Spark环境Databricks。Databricks是软件即服务（SaaS）环境，基于Spark的统一数据分析平台，用于数据工程、数据科学和机器学习。Databricks提供了一组统一的工具，用于大规模构建、部署、共享和维护企业级数据解决方案。Databricks的主界面如图所示。

Databricks基本概念

在使用Databricks之前，需要对Databricks中的一些基本概念有所了解。

工作空间Workspaces

Workspaces称为工作区，是一个基于角色的交互式环境UI界面，可以管理Databricks的Cluster、Notebook、Job等，为了跟Workspace进行区分，本书将Workspaces称为工作空间。Databricks的主界面就是一个工作空间，不同角色的工作空间，可以通过主界面左侧菜单栏顶部菜单进行切换。

工作区Workspace

Workspace也称工作区，用于访问所有Databricks资产的环境，可以管理Notebook、Library，并将这些对象按文件夹的形式进行组织，同时工作区还提供对数据对象和计算资源的访问。工作区对应于主界面左侧菜单栏上的Workspace菜单。

笔记本Notebook

Notebook即笔记本，是一个基于Web的笔记本，包含可执行代码、笔记、图片资源等，可以在笔记本中编写Python、R、Scala、SQL等代码，执行代码并获得输出结果，可以对结果进行可视化处理。笔记本可以在工作区中创建，也可以将已有笔记本托管于Git仓库，通过Repos菜单将Git仓库添加到Databricks，实现笔记本的版本控制管理。

集群Cluster

Cluster即集群，是Databricks的计算资源，进行数据集成、数据分析、机器学习需要计算资源，必须先创建集群。Databricks的集群是Spark集群，支持单节点、多节点集群。集群可以通过主界面左侧菜单栏中的Compute菜单进行创建。

文件系统DBFS

Databricks文件系统（DBFS）是一个装载到Databricks工作区的分布式文件系统，可以在Databricks群集上使用。在Databricks中，集群提供计算资源，包括CPU、内存、网络等；DBFS则提供数据和文件的存储、读写能力，是Databricks中一个非常重要基础设施，这与HDFS类似。与HDFS不同的是，DBFS是针对可缩放对象存储的一种抽象，可将类Unix文件系统调用映射到本机云存储API调用，这让访问DBFS上的文件就像访问本地文件一样简单。