【hadoop学习之路】Spark-shell RDD 实现词频统计

最新推荐文章于 2023-04-26 14:50:33 发布

原创

最新推荐文章于 2023-04-26 14:50:33 发布 · 3.5k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #spark #scala

本文通过Spark Shell演示了如何在本地文件系统上读取words.txt，使用RDD进行文本处理，包括分割、拍平、转换为键值对、聚合、相加操作，最终实现词频统计。结果显示，最常见的词包括hadoop、python等，每个词出现8次。

1. 在本地路径下创建文本文件 /test/words.txt，内容如下：

python java cpp c hello world hadoop hdfs
python java cpp c hello world hadoop hdfs
python java cpp c hello world hadoop hdfs
python java cpp c hello world hadoop hdfs
python java cpp c hello world hadoop hdfs
python java cpp c hello world hadoop hdfs
python java cpp c hello world hadoop hdfs
python java cpp c hello world hadoop hdfs

2. 运行spark-shell

spark-shell

3. 读取words.txt，使用命令：

val wc1 = sc.textFile("file:///test/words.txt")

4. 使用空格分割文本，使用命令：

val wc2 = wc1.map(item => item.split(" "))

5. 将4.中所得结果拍平，使用命令：

val wc3 = wc2.flatMap(item => item)

6. 将5.中结果转换为键值对，使用命令：

val wc4 = wc3.map(item => (item,1))

7. 将6.中结果聚合、相加，使用命令：

val wc5 = wc4.reduceByKey((curr, agg) => curr + agg)

8. 将6. 中结果收集、展示，使用命令：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

新世纪debug战士

关注关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark RDD案例：词频统计

weixin_52112640的博客

06-15

1363

（二）创建日志属性文件在资源文件夹里创建日指数型文件 - log4j.properties （三）创建词频统计单例对象在net.huawei.rdd包里创建WordCount单例对象查看结果

Spark3.2教程（二）Windows下Spark Shell编程实现词频统计

Java朱老师博客

12-17

9893

Spark提供了两种方式编程方式： spark-shell 是一个基于Scala语言的交互式解释器，类似于 Scala 提供的交互式解释器, 可以在此直接编写Scala执行。 spark-submit Spark submit是一个命令, 用于提交 Scala 编写的基于 Spark 框架, 这种方式可以支撑在开发工具中开发玩Scala代码之后，在集群中运行任务。下面我们准备Spark Shell词频统计编程的单词文件，放在D://test/words.txt apple orange pear bana

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

我爱人工智能 2021.07.08
写的不错!期待大佬回访！

大家一起学编程（python） 2021.06.12
遇到好文章，我都会评论

游戏源码_ 2021.06.12
今天点赞次数用完了，收藏支持一下，文章写得很好，初来乍到，希望多多关注，期待你的回复，谢谢！

启动Spark-Shell实现词频统计

qq_53325156的博客

04-19

1822

启动Spark-Shell实现词频统计

Spark Rdd项目（词数统计）

qq_58166534的博客

06-17

497

编写准备文件上传文件创建maven项目在pom.xml里添加依赖

大数据技术实践——Spark词频统计

08-23

本次作业要完成在Hadoop平台搭建完成的基础上，利用Spark组件完成文本词频统计的任务，目标是学习Scala语言，理解Spark编程思想，基于Spark 思想，使用IDEA编写SparkWordCount程序，并能够在spark-shell中执行代码和分析执行过程。

精选资源

spark--bin-hadoop3-without-hive.tgz

09-17

Spark在Hadoop之上构建，提供了一种更快速的数据处理方式，特别是对于迭代计算和交互式数据分析。Spark Core是其核心，提供了弹性分布式数据集（RDD）的概念，这是一种容错的、可并行操作的数据结构。此外，Spark还...

spark-3.2.4-bin-hadoop3.2-scala2.13 安装包

08-28

综上所述，“spark-3.2.4-bin-hadoop3.2-scala2.13”安装包是构建和运行Spark应用程序的基础，涵盖了大数据处理、流处理、机器学习等多个领域，为开发者提供了高效、灵活的数据处理平台。通过深入理解和熟练运用，...

精选资源

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

06-27

- RDD（弹性分布式数据集）：Spark的基础数据结构，是不可变、分区的数据集合，可以在集群中并行操作。 - DataFrame：Spark SQL引入的数据模型，它是基于表和列的抽象，提供了更高级别的抽象和优化。 - Dataset：...

基于RDD的Spark应用程序开发(实现词频统计)

小财迷嘻嘻的博客

11-15

1899

1、开发环境 IDEA+MAVEN+Scala pom.xml 2、实现

基于RDD的Spark应用程序开发案列讲解（词频统计）

weixin_49165958的博客

11-12

756

步骤一：在电脑D盘上创建一个文件a.txt,内容如下： hello java hello spark hell0 scala hello rqm spark hi 步骤二：在IDEA里创建Scala工程，并做好词频统计，输出 val rdd=sc.textFile("D:\\a.txt) rdd.flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_) 步骤三：先提前写好路径，在resource创建文件夹info.properties，写好

sparkRDD词频统计

s_caiji的博客

06-16

1594

spark词频统计

2022学期总结

m0_67806436的博客

06-18

435

时间过得快，一学期就这样进入了尾声，学习Spark也一学期了，收获了很多，也学会了很多，在现在这个网络时代，数据清洗数据处理是比较重要的，在学习期间不断的出现很多问题，每次遇到问题的时候，自己先解决，解决不到再求助同学和老师，学习过程中就要不断的出现问题不断的解决问题，这样才会得到成长，得到锻炼，这样才会再困难中学习。听华卫老师讲一学期的课了，华卫老师讲课是很精彩，每节课都讲的很好，不仅教会我们学习大数据这门课，还教会我们要多学习专业以外的课程比如：英语，华老师上课就是中英文结合的，方式很独特，中英文结合

使用Spark实现词频统计

梁辰兴的博客

04-26

6248

执行命令：spark-submit --master spark://master:7077 --deploy-mode cluster --class net.army.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/input：单词数据的来源路径。

spark词频统计

qq_34082921的博客

04-08

6061

spark词频统计 **最开始进入spark文件目录bin下输入“./pyspark”,就进入python交互式命令行，如果出现下图，表示成功，会显示spark的图表和版本号，我的版本是3.1.2 ** 第一步、在尖括号右侧写代码sc是一种抽象接口，在pyspark中我们可以直接调用，不必写sc。sc.textFile(“输入自身文件地址”)获取文件数据。 lines = sc.textFile("输入自身文件地址") 第二步、得到数据后就需要分割数据,这里是按照空格分隔 lambda是python中的

Spark：交互式下实现词频统计

博樽

03-12

904

word.txt 文件上传到hdfs、进入Spark-shell 交互式

【Spark入门项目】词频统计

这个人很蓝

08-01

1585

初始化spark配置通过textFile方法读取文件夹内的所有txt文件，txt文件内随机拷贝英文内容 RDD的每一个元素为txt文件中的一行，通过flatMap方法（flatMap方法可以返回一个序列，普通的map方法返回一个元素）将每一行按空格分割，并将该行的所有词按Key-value的形式返回。通过reduceByKey 将所有相同键值的词聚合在一起，聚合函数为lambda x, y: x+y即对集合内的两两元素相加。通过sortBy将按频率排序，lambda x: x[1]表示key-va.

Spark词频统计的三种方式

最新发布

04-02

### Spark RDD 编程教程 RDD（Resilient Distributed Dataset）是 Spark 的核心抽象之一，表示一个不可变的、分区的数据集[^4]。它可以被并行操作，并支持多种转换和动作操作。 #### 创建 RDD 可以通过两种方式创建 RDD： 1. **从外部存储加载数据**：例如 HDFS 文件或其他分布式文件系统中的文件。 2. **通过已有的 Scala 集合对象**：适用于小型测试数据集。以下是基于 `spark-shell` 的交互式编程示例： ```scala // 加载本地文件作为 RDD val textFile = sc.textFile("file:///path/to/your/file.txt") // 使用集合创建 RDD val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data) // 显示前几个元素 textFile.take(5).foreach(println) distData.collect().foreach(println) ``` 上述代码展示了如何从文件或内存数组中创建 RDD 并查看其内容。 --- ### Spark Shell 交互式编程示例 `spark-shell` 是一种快速启动 Spark 上下文的方式，适合开发人员进行调试和原型设计[^2]。以下是一个简单的交互式编程流程： #### 启动 Spark Shell 运行命令如下： ```bash bin/spark-shell ``` 这将在本地模式下启动 Spark，默认绑定地址为 `http://localhost:4040`，提供 Web UI 查看任务状态。 #### 数据处理实例假设有一个名为 `input.txt` 的文本文件，其中每行包含若干单词。我们希望统计每个单词出现的次数。 ```scala // 读取文件并分割成单词 val lines = sc.textFile("file:///path/to/input.txt") val words = lines.flatMap(line => line.split(" ")) // 将每个单词映射为 (word, 1)，然后按 key 聚合计数 val wordCounts = words.map(word => (word, 1)).reduceByKey(_ + _) // 输出结果 wordCounts.foreach(println) ``` 此代码片段实现了经典的 WordCount 功能，利用了 RDD 的 `flatMap`、`map` 和 `reduceByKey` 方法[^5]。 --- ### 关键方法解析 - **Transformation**: 如 `map`, `filter`, `flatMap`, `groupByKey`, `reduceByKey` 等用于定义计算逻辑。 - **Action**: 如 `collect`, `count`, `take`, `saveAsTextFile` 等触发实际计算。这些方法共同构成了 Spark 中的核心编程模型。 ---