Spark SQL案例计算平均分

最新推荐文章于 2024-06-15 20:52:01 发布

Chen Mon

最新推荐文章于 2024-06-15 20:52:01 发布

阅读量521

点赞数

文章标签： spark sql 大数据

本文链接：https://blog.youkuaiyun.com/weixin_52112640/article/details/125321928

版权

该博客介绍了如何使用Spark SQL来计算多个成绩文件中每个学生的平均分，并提供了详细步骤，包括新建Maven项目，添加Spark相关依赖，配置日志，创建计算平均分的单例对象，以及本地运行程序查看结果。同时，给出了课后练习，进一步要求按平均分降序排列数据以及使用Spark RDD进行计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、提出任务
二、完成任务
三、课后练习
- 任务1、计算平均分，按平均分降序排列
- 任务2、利用Spark RDD计算平均分

一、提出任务

有多科成绩表，比如python.txt、spark.txt、django.txt，计算每个学生三科平均分
Python成绩表 - python.txt

1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86

Django成绩表 -django.txt

1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86

Spark成绩表 -spark.txt

1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86

预备工作：启动集群的HDFS与Spark
在HDFS上新建/score目录
在master虚拟机上新建一个file文件，在file创建三个成绩文件
将文件上传到hdfs上的score目录下
查看文件内容

二、完成任务

（一）新建Maven项目

设置项目类型
scala目录（用的以前的gif不会影响）

（二）添加相关依赖和构建插件

在pom.xml 添加依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>net.cch.sql</groupId>
    <artifactId>SparkSQL</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.12</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark