实战:利用Spark SQL实现词频统计 目标 使用Apache Spark的Spark SQL模块,实现一个词频统计程序。 环境准备 本地文件准备 在本地/home目录下创建words.txt文件。 HDFS文件准备 创建HDFS目录/wordcount/input。 将words.txt文件上传到HDFS的/wordcount/input目录。 交互式实现 方法一 读取文本文件并生成数据集。 扁平化映射,将文本拆分为单词。 将数据集转换为数据帧,并重命名列。 创建临时视图,使