IDEA本地运行Spark项目[演示自定义分区器]并查看HDFS结果文件

酒城译痴无心剑

已于 2022-06-25 00:14:47 修改

阅读量2k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： # Spark基础学习笔记（2）文章标签：本地运行 Spark项目

于 2022-04-01 07:24:32 首次发布

本文链接：https://blog.youkuaiyun.com/howard2005/article/details/123888352

Spark基础学习笔记（2）专栏收录该内容

150 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何在IDEA本地环境中运行Spark项目，特别是涉及自定义分区器的情况。首先，文章解决了添加IP到主机名映射的问题，然后在本地准备Spark库文件并创建Scala项目。接着，详细阐述了如何添加Spark库到项目，创建自定义分区器，并测试其功能。最后，讲解了如何打包项目，上传到服务器，提交到Spark集群运行，并查看HDFS上的结果文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、提出问题
二、解决问题
三、打包上传，提交运行

一、提出问题

一般情况下，在IDEA里编写Spark项目，涉及到HDFS文件读写或Hive操作，都是先打成jar包上传到服务器，然后通过spark-submit命令提交到Spark集群运行，能不能在本地运行，查看运行结果呢？当然可以做到，本文就来讲解操作过程。
案例是演示Spark的自定义分区器。
在有些情况下，使用Spark自带的分区器满足不了特定的需求。
每个学生有三科成绩，如下表所示：