Scala练习--WoldCount词频统计

最新推荐文章于 2024-11-27 15:39:28 发布

原创

最新推荐文章于 2024-11-27 15:39:28 发布 · 449 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#Scala #词频统计 #Spark #Hadoop

本文通过Scala在Spark Shell中实现了一个WordCount的例子，涵盖了启动Hadoop HDFS，创建并操作数据文件，加载本地及HDFS中的文件，进行词频统计等步骤，详细阐述了整个流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

启动Hadoop HDFS

hadoop@dhjvirtualmachine:/usr/local/hadoop/sbin$ ./start-dfs.sh

创建数据文件

hadoop@dhjvirtualmachine:/usr/local/spark/mycode$ mkdir wordcount
hadoop@dhjvirtualmachine:/usr/local/spark/mycode$ cd wordcount
hadoop@dhjvirtualmachine:/usr/local/spark/mycode$ vim word.txt

启动spark-shell 1.6.2

hadoop@dhjvirtualmachine:/usr/local/spark$ ./bin/spark-shell

加载本地文件

scala> val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
打印
textFile: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/wordcount/word.txt MapPartitionsRDD[1] at textFile at <console>:27

打印第一行

textFile.first()
打印
res1: String = this is new fille

文件变量写回文件

scala> textFile.saveAsTextFile("file:///usr/lo

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

宁缺100

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Scala案例：词频统计

howard2005的专栏

02-17

4990

一、提出任务统计文本文件里单词出现次数。二、完成任务 1、创建Scala项目 - ScalaWordCount 创建net.hw.wc包： 2、在项目根目录添加文本文件test.txt 3、在net.hw.wc包里创建scala源程序WordCount 4、运行程序，查看结果 ...

flink 本地环境使用scala实现词频统计

MDJ_D2T的博客

10-26

1322

一、构建本地flink项目 java语言的场景 mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-java \ -DarchetypeVersion=1.9.0 scala语言的场景 mvn archetype:genera

参与评论您还未登录，请先登录后发表或查看评论

在idea中进行词频统计（scala版本）

qq_58476985的博客

10-25

2409

（这里要注意，如果添加了依赖后，还有报红的地方，要进行相关依赖的下载，如下所示：）（其中要注意的是本地复制的路径里的斜杠要替换一下，否则不能找到该文本文档）1、做某个文件的词频统计//某个单词在这个文件出现的次数。3、创建sc->读取文件的方式--->RDD。（k，v）->(k是单词，v是数量）（根据现有条件，进行具体的分析。1、单例对象，main（）函数。1、文件单词规律（空格分开）

Scala词频统计

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

07-01

2298

实验室名称：大数据实验教学系统实验项目名称：词频统计实验学时：实验原理：统计原理读取整个文件，通过空格分割成每个单词，然后映射成(word,1)这样的元组，对所有元组分组统计每个单词出现的次数。。实验目的：应用所学习到的Scala编程知识，解决文本中词频统计问题。实验内容：世界上最遥远的距离，莫过于心与心之间的冷漠。在《十八岁的天空》中有“世界上最遥远的距离不是生与死，而是我站在你面前，你却不知道我爱你。”这句台词，在戏里面说是出自《飞鸟集》的。可是泰戈尔的《飞鸟集》里根本没有任何相

Scala综合案例：词频统计

weixin_45437533的博客

02-05

1657

Scala综合案例：词频统计

scala 词频统计

qq_74831786的博客

12-28

593

【代码】scala 词频统计。

scala计算词频

ho_ll_ow的博客

11-02

1203

计算一个单词出现次数并排序: val arr=Array(“hello,word,hello,haokz,hello,haokz”,“haokz,hello,wang,kong,kong,haokz,hello”,“wang,haokz,hello”) 1.用Array模拟多行内容,每行内容中字符以,号间隔 val arr=Array(“hello,word,hello,haokz,hello,h...

scala资源 scala-SDK-4.7.0-vfinal-2.12-li gz文件

10-21

标题中提到的"scala-SDK-4.7.0-vfinal-2.12-li"指的是Scala语言的一个特定版本的软件开发工具包（SDK）。该版本为4.7.0，这可能是Scala官方发布的稳定版，包含了一整套用于开发Scala应用程序的工具和库。而"vfinal...

scala-maven-plugin:scala-maven-plugin（以前是maven-scala-plugin）用于在maven中编译testingrunningdocumenting scala代码

08-05

Scala Maven 插件 scala-maven-plugin （以前是 maven-scala-plugin）用于在 Maven 中编译/测试/运行/记录 Scala 代码。类似插件建造目前，您需要 Maven 3.x 和 JDK 8 来构建插件、创建站点并运行integration-test ...

scala-parser-combinators-2.11-1.0.4-API文档-中文版.zip

04-23

赠送jar包：scala-parser-combinators_2.11-1.0.4.jar；赠送原API文档：scala-parser-combinators_2.11-1.0.4-javadoc.jar；赠送源代码：scala-parser-combinators_2.11-1.0.4-sources.jar；赠送Maven依赖信息...

scala-intellij-bin-2023.1.15.zip

03-30

"scala-intellij-bin-2023.1.15.zip" 是一个包含IntelliJ IDEA针对Scala开发的特定版本的二进制发行包。这个压缩包很可能包含了以下内容： 1. **IntelliJ IDEA安装程序**：这是主应用程序，允许用户在本地计算机...

Spark Scala简单统计单词个数

07-16

该资源可以简单计算文本中单词个数

CMD命令行模式下使用Scala进行词频统计

while false

10-04

1164

1.首先创建一个数组 2.对这个数组进行flatMap操作(等于先 map操作后进行 flatten 操作) 3.要进行统计就需要进行分组可以看出分组之后变为了Map集合，其中都是key-value对 4.将value取出来并统计其长度 5.将结果转换为List集合 6.进行排序 sortBy(x=>-x._2)为降序...

Scala实现统计词频

jtsyh2008的博客

09-23

1813

初次接触Scala，写一个Demo package scala import scala.io.Source import scala.collection.mutable.Map object wordCount { var filePath : String = "./src/scala/sampleDoc.txt"; var minFrequence : Int = 5;...

Scala实现文本词频统计

qq_44486439的博客

08-04

4912

Scala实现文本词频统计环境 CentOS Linux release 8.1.1911 (Core) Scala 2.13.3 (Java HotSpot(TM) 64-Bit Server VM, Java 14.0.2) 实现代码 import scala.io._ object WordFrequenciesCounter { /* Description: 词频统计主函数 Args: args : main函数参数 Returns: 无 */ def

scala统计词频