文章目录
一、提出任务
- 有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分
- Python成绩表 - python.txt
1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86
- Django成绩表 -django.txt
1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86
- Spark成绩表 -spark.txt
1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86
- 预备工作:启动集群的HDFS与Spark
- 在HDFS上新建/score目录
- 在master虚拟机上新建一个file文件,在file创建三个成绩文件
- 将文件上传到hdfs上的score目录下
- 查看文件内容
二、完成任务
(一)新建Maven项目
- 设置项目类型
- scala目录(用的以前的gif不会影响)
(二)添加相关依赖和构建插件
- 在pom.xml 添加依赖
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>net.cch.sql</groupId>
<artifactId>SparkSQL</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
</properties>
<dependencies>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.11.12</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.1</version>
</dependency>
<dependency>
<groupId>org.apache.spark