Spark SQL案例分析：词频统计

最新推荐文章于 2024-06-11 11:17:06 发布

兮若耶

最新推荐文章于 2024-06-11 11:17:06 发布

阅读量1.1k

点赞数

文章标签： spark sql scala

本文链接：https://blog.youkuaiyun.com/m0_63797754/article/details/125359974

版权

本文通过一个词频统计的案例，详细介绍了如何使用Spark SQL进行数据处理。从创建数据源word.txt开始，到建立Maven项目，修改源目录，添加依赖，创建日志属性文件，最后编写并运行词频统计的Scala代码，展示Spark SQL处理数据的强大能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、使用Spark SQL实现词频统计

一、使用Spark SQL实现词频统计

（一）数据源 - word.txt

创建一个word.txt文件，并上传到HDFS下的文件fff目录下
在HDFS创建fff目录 hdfs dfs -mkdir /fff

请添加图片描述

（二）创建Maven项目

创建Maven项目 - SparkSQLWordCount

请添加图片描述

（三）修改源目录名称

请添加图片描述

（四）添加依赖和构建插件

在pom.xml文件里添加依赖和构建插件

请添加图片描述

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>net.fhl.sql</groupId>
    <artifactId>SparkSQLWordCount</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.8</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
        <dependency>
            <groupId>org

最低0.47元/天解锁文章