《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例

前言

大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行案例。

图书在:当当京东机械工业出版社以及各大书店有售!

创建笔记本

Databricks中交互式代码采用笔记本编写并运行。在Workspace菜单下点击鼠标右键,在弹出菜单中选择Create菜单下的Notebook来创建笔记本,如图所示。

在笔记本界面输入笔记本的名称、开发语言、集群,可以创建一个在Cluster1集群下运行的基于Python语言进行开发的笔记本,如图所示。

在笔记本中编写Python代码并点击Run Cell菜单直接运行代码,如图所示。

运行完成可以在笔记本中看到输出结果,如图所示。

  • Spark版本是3.4.0。
  • Spark Master地址是spark://10.139.64.4:7077,这与独立集群的master地址一致。
  • 应用名称是Databricks Shell。

点击输出结果中的Spark UI链接,打开Spark Driver Web UI,如图所示。

运行案例

在笔记本中写入WordCount代码,将代码中访问HDFS的文件路径改成访问DBFS的文件路径,修改后的代码如下:

count = sc.textFile("dbfs:/FileStore/tables/words.txt") \
.flatMap(lambda x: x.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(lambda a,b: a + b).collect()
print(count)

点击Run Cell菜单执行单元格代码,执行结果会直接显示在笔记本中单元格的下方,如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

### Databricks 学习资料与入门教程 Databricks 是一种基于 Apache Spark 的数据分析平台,广泛应用于大规模数据处理、机器学习和人工智能领域。以下是关于 Databricks 的学习资料、入门教程及其使用指南。 #### 一、官方文档与基础概念 Databricks 提供了详尽的官方文档来帮助用户快速上手其服务。对于初学者来说,可以从以下资源入手: - **Azure Databricks 入门指南**:该指南介绍Databricks 在 Azure 上的应用场景以及如何构建和管理 Spark 集群[^4]。 - **嵌入模型的概念与实践**:如果计划将预训练模型集成到应用程序中,则可参考 LangChain 文档中的相关内容[^2]。 #### 二、实际操作案例 为了加深理解并掌握具体技能,可以通过一些具体的项目实例来进行实操演练: - **NYC 出租车数据集分析**:这是一个经典的 ETL (Extract, Transform, Load) 实践课程,在其中会学到如何加载 CSV 文件、执行 SQL 查询以及绘制图表等技术要点[^1]。 #### 三、高级主题探讨 当具备一定基础知识之后,还可以进一步研究更复杂的课题比如自然语言处理(NLP),这通常涉及大语言模型(LLMs)的支持: - LLMs 的部署流程说明了怎样利用 Databricks 平台完成端到端解决方案的设计开发工作流[^3]。 - 此外也可以尝试调用 HuggingFace 中公开可用的各种先进算法框架来做实验性测试[^5]。 ```python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("example").getOrCreate() dataframe = spark.read.format('csv').option("header", "true").load("/path/to/file.csv") dataframe.show(5) ``` 上述代码片段展示了如何创建 PySpark Session 对象读取本地存储路径下的 csv 数据文件,并显示前五行记录作为样例展示效果的一部分演示内容之一;当然这只是众多可能性当中最简单的一种形式而已!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wux_labs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值