文章目录
1. 实战概述
- 在本次实战中,创建一个名为
DataModel
的Spark SQL
数据模型对象,用于演示如何加载数据集、过滤数据以及计算统计信息。首先,在项目根目录下创建data
目录,并在其中创建了包含员工信息的employees.json
文件。然后,创建DataModel
对象,并定义spark
常量以及三个方法:loadData()
、filterAge()
和avgSalary()
,分别用于加载数据、过滤年龄大于20
岁的员工和计算不同性别的平均工资。最后,在main()
方法中调用这些方法来执行数据处理任务。
2. 实战步骤
2.1 创建数据集
- 在项目根目录创建
data
目录
- 在
data
里创建employees.json