文章目录
零、本讲学习目标
- 掌握如何读取JSON文件
- 掌握如何进行关联查询
一、读取JSON文件概述
- Spark SQL可以自动推断JSON文件的Schema,并将其加载为DataFrame。在加载和写入JSON文件时,除了可以使用
load()
方法和save()
方法外,还可以直接使用Spark SQL内置的json()
方法。该方法不仅可以读写JSON文件,还可以将Dataset[String]类型的数据集转为DataFrame。 - 需要注意的是,要想成功地将一个JSON文件加载为DataFrame,JSON文件的每一行必须包含一个独立有效的JSON对象,而不能将一个JSON对象分散在多行。
二、读取JSON文件案例演示
(一)创建JSON文件并上传到HDFS
- 创建
user.json
文件
- 上传到HDFS的
/input
目录