
Spark
文章平均质量分 91
spark
JJustRight
任何一件事情,只要心甘情愿,总是能够变得简单!
展开
-
搭建Spark集群(CentOS Stream 9)
本文详细介绍了在CentOS Stream 9系统上搭建Spark集群的完整流程,涵盖基础环境配置、Spark安装与部署、集群模式配置以及开发环境搭建。讲解了Spark的Local模式安装,随后,介绍了如何搭建Spark Standalone集群和Spark on YARN集群。最后,配置了PySpark开发环境,包括JupyterLab的安装与使用,支持交互式编程和作业提交。所有资源可通过文末的百度网盘链接获取。本文为大数据处理和分析提供了完整的Spark集群搭建指南。原创 2025-02-11 01:24:07 · 1825 阅读 · 0 评论 -
SparkSQL案例-图书信息分析
SparkSQL是Spark为处理结构化数据提供的高级组件,本文将使用SparkSQL完成图书信息统计,示例代码将分别以DSL和SQL两种风格进行讲解,并结合Matplotlib和Pandas对结果进行可视化呈现。文末提供数据和源代码的网盘资源原创 2022-04-14 13:20:07 · 2946 阅读 · 0 评论 -
RDD编程案例-共同粉丝问题
共同粉丝问题是一个经典的大数据分布式计算问题,本文基于RDD+PySpark+JupyterLab环境完成该案例。原创 2022-04-21 18:23:37 · 2497 阅读 · 0 评论 -
Spark环境搭建(保姆级教程)
Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置,以及各种模式的代码提交,包括Local,Standalone,YARN。文末有相应资源下载网盘链接。原创 2022-02-24 12:57:30 · 59310 阅读 · 7 评论