三行命令解决spark词频统计

最新推荐文章于 2025-06-03 21:23:42 发布

路人张的鱼生

最新推荐文章于 2025-06-03 21:23:42 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark 日常胡搞文章标签： Spark

本文链接：https://blog.youkuaiyun.com/zhangdy12307/article/details/90115985

Spark 同时被 2 个专栏收录

19 篇文章

订阅专栏

日常胡搞

10 篇文章

订阅专栏

本文介绍如何仅用三行代码在Spark中完成词频统计任务：首先使用textFile加载文本，接着利用flatMap()生成单词键值对，最后通过reduceByKey()汇总词频。代码简洁高效，适用于大数据处理场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

三行命令解决spark词频统计

如何通过三行命令解决词频统计问题
1、使用textFile加载文本
2、使用flatMap()生成以单词为键，数字1为值的RDD
3、使用reduceByKey()对所有单词进行过统计

原文档如下

在这里插入图片描述

命令如下

val input=sc.textFile("file:///media/hadoop/Ubuntu/word.txt")
val words=input.flatMap(x=>x.split(" "))
val result=words.map(x=>(x,1)).reduceByKey(_+_).foreach(println)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

路人张的鱼生

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

项目一：利用Spark RDD实现词频统计

howard2005的专栏

06-14

2326

经典案例 - 词频统计（本地运行，打包上传到集群上运行）

SparkRDD 词频统计

huangy_u的博客

06-16

1371

由于源程序目录改成了，在元素里必须添加子元素，指定目录（五）本地运行程序，查看结果首先看控制台输出结果 SparkConf对象的setMaster()方法用于设置Spark应用程序提交的URL地址。若是Standalone集群模式，则指Master节点的访问地址；若是本地（单机）模式，则需要将地址改为local或local[N]或local[*]，分别指使用1个、N个和多个CPU核心数。本地模式可以直接在IDE中运行程序，不需要Spark集群。此处也可不设置。若将其省略，则使用

参与评论您还未登录，请先登录后发表或查看评论

spark下统计单词频次

白乔专栏

03-06

8329

spark词频统计

来，骗！来，偷袭！

08-28

836

spark词频统计 idea配置spark单机环境请参考其他教程，这里我使用的版本信息如下 JDK：1.8.0_281 Scala：2.12.8 Spark：3.1.1 开发环境：IDEA 2020.2.3 idea中新建maven项目，建议jdk版本1.8及以上，单击下一步自定义项目名称，这里为experiment1，下拉选项中groupid和version也可自定义，这里分别改为com.experiment和1.0.0，单击完成右键单击项目experiment目录选择Add

Spark 词频统计

最新发布

ynisd__的博客

06-03

210

# 读取文本文件 rdd1 = sc.textFile('file:///usr/local/spark/licenses/LICENSE-py4j.txt')# 查看原始数据 rdd1.foreach(print)# 词频统计步骤 rdd2 = rdd1.map(lambda x: x.split(' ')) # 按空格分割每行 rdd2.foreach(print)rdd3 = rdd1.flatMap(lambda x: x.split(' ')) # 扁平化所有单词 rdd3.f

Spark词频统计测试

05-24

5705

数据：中华书局白话版24史，总计大小93M，已经存放到HDFS集群分析语言：python 分析框架：Spark 1.6.0 第三方包：jieba（结巴分词）可视化工具：D3.JS 源代码： from pyspark import SparkConf, SparkContext import jieba,Wordfilter,datetime,Word

使用Spark实现词频统计

梁辰兴的博客

04-26

6030

执行命令：spark-submit --master spark://master:7077 --deploy-mode cluster --class net.army.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/input：单词数据的来源路径。

Spark之词频统计

zhangdy12307的博客

07-11

2742

Spark之词频统计经过了一段时间的Hadoop学习，从今天开始正式走上Spark学习之路，先回顾一下简单的词频统计程序，参考文章三行命令解决spark词频统计 Idea环境中的代码如下 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.Spark...

Spark RDD案例：词频统计

m0_67806453的博客

06-23

537

目录一、提出任务二、完成任务（一）新建Maven项目（二）添加相关依赖和构建插件（三）创建日志属性文件（四）创建词频统计单例对象（五）本地运行程序，查看结果（六）对于程序代码进行解析（七）将Spark项目编译和打包（八）将词频统计应用上传到虚拟机（九）在集群上执行词频统计应用一、pandas是什么？二、使用步骤1.引入库 1.单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供2.的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Mave

2024.1.2 Spark 简介,架构,环境部署,词频统计

白白的wj的博客

01-02

1402

1. Spark 和MapReduceMR:大量的磁盘反复写入,运行是基于进程进行数据处理,创建和销毁的过程比较消耗资源,并且速度较慢Spark:基于线程执行任务,引入新的数据结构RDD(弹性分布式数据集),让spark基于内存进行运行,比磁盘速度快很多2. 进程与线程进程:app,不同软件线程:微信里的每个聊天对话3. 四大特点高效性 (快), 易用性(多语言), 通用性(提供了多个工具库), 兼容性(任何地方运行)一个主角色 Master的职责:1.管理众多的从角色。

Spark3.2教程（二）Windows下Spark Shell编程实现词频统计

Java朱老师博客

12-17

9845

Spark提供了两种方式编程方式： spark-shell 是一个基于Scala语言的交互式解释器，类似于 Scala 提供的交互式解释器, 可以在此直接编写Scala执行。 spark-submit Spark submit是一个命令, 用于提交 Scala 编写的基于 Spark 框架, 这种方式可以支撑在开发工具中开发玩Scala代码之后，在集群中运行任务。下面我们准备Spark Shell词频统计编程的单词文件，放在D://test/words.txt apple orange pear bana

Spark创建WordCount并统计词频

SCGH_Fx的专栏

05-10

2870

（1）先准备一个名为test.txt的文档，该文档内容如下： Apple Apple Orange Banana Grape Grape （2）上传文档然后使用secureCRT上传到Linux系统上。上传完毕后，检查文档 zhang@Desktop1:~$ ls | grep 'test.txt' test.txt （3）查看内容 zhang@Desktop1:~$ c

【spark 词频统计】spark单词进行计数升级版

赖德发的博客

06-14

3743

下面的代码对文件里的单词进行计数，筛选出现过10次的单词，然后对这些单词中的每个字符出现的次数进行计数。最后，通过collect action操作触发job的执行。这些转换中有两个是stage边界（它们有宽依赖）。代码中的两个reduceByKey转换是生成3个stage的原因：val words = sc.textFile("textFilePath").flatMap(_.split(' '))

spark streaming（实时流词频统计）

weixin_49165958的博客

12-21

1858

首先在idea里导入maven依赖包 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</version> </dependency> <dependency> <groupId&

Spark词频统计的三种方式

热门推荐

彷徨的博客

09-20

1万+

利用spark-shell来编程 spark-shell --master spark://hadoop01:7077 已经初始化好了SparkContext sc 回顾wordcount的思路：读数据，切分并压平，组装，分组聚合，排序当启动spark-shell启动以后 , 监控页面会监控到spark-shell 当我们使用spark-shell以集群模式读取本地的数据的时...

spark 词频统计方法和代码

chuhui1226的博客

07-15

1219

import java.util.Arrays; import java.util.Iterator; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav...

从词频统计中，认识spark计算

weixin_30443895的博客

02-23

239

　　记得学习编程语言时，老师直接让我打印Hello World！。这种直接动手操作，然后看到效果的方式；比先讲一大堆语法、概念更容易让人理解，接受。　　自然而然的，词频统计（WordCount）就是学习分布式计算的第一步。 val master = "local" val conf = new SparkConf().setMaster(master).setAp...

linux虚拟机自创文件进行词频统计

06-02

<think>好的，我需要帮助用户在Linux虚拟机中创建文件并进行词频统计。首先，用户提到了在Linux环境中操作，所以应该使用命令行工具。创建文件的话，常用的方法有touch命令或者文本编辑器如vim。例如，用户可能需要用vim来编辑并保存文件内容，或者直接使用重定向符号将内容写入文件。接下来是词频统计部分。Linux中有很多命令行工具可以组合使用，比如cat、tr、sort、uniq等。常见的步骤包括：将文件内容转换为单词列表（可能需要用tr命令替换掉标点符号或分割单词），然后排序，再用uniq-c统计出现次数，最后排序输出结果。用户可能需要具体的命令示例，比如：cat filename| tr-s' ''\n' |sort |uniq-c| sort-nr另外，如果用户的环境配置了Hadoop或Spark，可能还需要使用分布式处理的方式，比如提交Spark作业。但根据用户的问题，可能更倾向于基本的Linux命令而非分布式计算，因为用户提到的是“代码或命令”，而引用内容里有Spark相关的步骤，但用户当前的问题可能更基础。需要确认用户是否需要简单的命令行方法还是基于Spark的解决方案。根据用户提供的引用内容，特别是引用[3]和[4]，用户可能在之前接触过Spark词频统计，但这次的问题可能更偏向于直接在Linux中使用Shell命令完成。因此，我应该先给出基本的Linux命令方法，再根据情况提及Spark的方法作为扩展。需要检查用户是否安装了必要的工具，比如是否安装了Java、Spark等，但如果是基础词频统计，可能不需要这些。所以主要步骤应该是： 1.创建文件：使用vim或echo命令创建并写入内容。 2.使用Shell命令处理文件，统计词频。例如，用户可以通过以下步骤操作： -使用vim创建文件并输入文本，或者使用echo将内容写入文件。 -运行tr命令将空格替换为换行，分割单词。-使用sort和uniq进行统计。-最后按频率排序。如果用户需要更详细的步骤，比如具体的命令示例，需要一步步说明。同时，可能还需要提醒用户注意命令中的参数，比如tr命令的-s选项来压缩重复字符，sort的-nr参数按数字逆序排序等。此外，用户可能想知道如何将结果保存到另一个文件中，或者如何处理大小写问题（比如将所有单词转为小写），这些可以作为扩展建议。最后，根据用户提供的引用，特别是引用[3]中的Spark应用提交步骤，如果用户后续需要处理更大的文件或分布式环境，可以建议使用Spark作业，但当前问题可能更适用于基础方法。因此，回答的结构应该是先给出基本的Linux命令方法，然后提到如果需要更复杂的处理，可以考虑Spark，并简要说明如何操作，引用相关的内容作为参考。</think>### 如何在Linux虚拟机中创建文件并实现词频统计？ #### 一、创建文件 1. **使用`vim`命令创建文件** ```bash vim words.txt # 输入内容后按`:wq`保存退出 ``` 或直接写入内容（示例）： ```bash echo "apple banana orange apple grape banana" > words.txt # 通过重定向生成文件[^4] ``` 2. **验证文件内容** ```bash cat words.txt # 查看文件内容 ``` --- #### 二、词频统计命令 ##### 方法1：基础Shell命令组合 ```bash cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -nr ``` - **步骤解析**： 1. `tr -s ' ' '\n'`：将空格替换为换行符，分割单词[^1]。 2. `sort`：对单词排序，便于`uniq`统计。 3. `uniq -c`：统计每个单词出现次数。 4. `sort -nr`：按频率降序排列。 ##### 方法2：处理复杂文本（含标点） ```bash cat words.txt | tr -d '[:punct:]' | tr '[:upper:]' '[:lower:]' | tr -s ' ' '\n' | sort | uniq -c | sort -nr ``` - **新增功能**： - 删除标点符号（`tr -d '[:punct:]'`）。 - 统一转为小写（`tr '[:upper:]' '[:lower:]'`）。 --- #### 三、扩展：使用Spark实现分布式词频统计（需环境支持） 1. **编写Scala代码**（示例）： ```scala object WordCount { def main(args: Array[String]): Unit = { val spark = SparkSession.builder.appName("WordCount").getOrCreate() val textFile = spark.read.textFile("hdfs://path/to/words.txt") val counts = textFile.flatMap(line => line.split(" ")) .groupBy("value").count() counts.show() } } ``` 2. **提交Spark任务**： ```bash spark-submit --master yarn ./wordcount.jar # 提交到集群运行[^3] ``` ---