文章目录
一、提出问题
- 一般情况下,在IDEA里编写Spark项目,涉及到HDFS文件读写或Hive操作,都是先打成jar包上传到服务器,然后通过
spark-submit
命令提交到Spark集群运行,能不能在本地运行,查看运行结果呢?当然可以做到,本文就来讲解操作过程。 - 案例是演示Spark的自定义分区器。
- 在有些情况下,使用Spark自带的分区器满足不了特定的需求。
- 每个学生有三科成绩,如下表所示:
姓名 | 科目 | 成绩 |
---|---|---|
Mike | Chinese | 98 |
Mike | Math | 88 |
Mike | English | 96 |
Alice | Chinese | 67 |
Alice | Math | 98 |
Alice | English | 87 |