Spark大数据处理学习笔记（2.4）IDEA开发词频统计项目

最新推荐文章于 2025-04-11 11:38:07 发布

Kox2021

最新推荐文章于 2025-04-11 11:38:07 发布

阅读量1.6k

点赞数

分类专栏： # Spark大数据处理学习笔记文章标签： spark 学习笔记

本文链接：https://blog.youkuaiyun.com/Kox_233/article/details/131153468

版权

该文章主要为完成实训任务，详细实现过程及结果见【http://t.csdn.cn/0qE1L】

文章目录

一、词频统计准备工作
二、本地模式运行Spark项目

一、词频统计准备工作

1.1 安装Scala2.12.15

从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html
安装在默认位置
安装完毕
在命令行窗口查看Scala版本（必须要配置环境变量）

1.2 启动集群的HDFS与Spark

启动HDFS服务
启动Spark集群

1.3 在HDFS上准备单词文件

在master虚拟机上创建单词文件 - words.txt
将单词文件上传到HDFS指定目录/wordcount/input

二、本地模式运行Spark项目

2.1 新建Maven项目

JDK选1.8
创建完成
将java目录改成scala目录
重名为scala

2.2 添加项目相关依赖

在pom.xml文件里添加依赖，并告知源程序目录已改成scala

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.kox.rdd</groupId>
    <artifactId>SparkRDDWordCount</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>