七、Spark安装(第七次作业)

博客介绍了Scala和Spark的安装步骤,包括下载、解压、启动等操作,还展示了查看Spark的web控制页面和启动Spark Shell的方法。此外,详细说明了WordCount的操作,如加载本地和hdfs文件、打印文件第一行以及词频统计等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scala安装

下载:https://www.scala-lang.org/download/
解压

tar -zxvf scala-2.12.8.tgz -C 
mv scala-2.12.8 scala

测试:

scala -version

启动:

scala

Spark安装

下载:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz
解压

tar -zxvf spark-2.4.2-bin-hadoop2.7.tgz

启动spark环境

/opt/module/spark/sbin/start-all.sh

观察进程 jps
在这里插入图片描述
查看spark的web控制页面:http://ip:8080/
启动Spark Shell

./bin/spark-shell

WordCount

加载本地文件:

val textFile = sc.textFile("file:///bigdata/spark/code/wordcount/word.txt")

加载hdfs文件:(先把文件上传到hdfs: hdoop fs -put ./word.txt / )

scala>val textFile = sc.textFile("hdfs://ip:9000/user/hadoop/word.txt")
scala>val textFile = sc.textFile("/user/hadoop/word.txt")
scala>val textFile = sc.textFile("word.txt")

打印文件第一行:

textFile.first()

词频统计:

val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCount.collect()

能力有限,如有不详细步骤,请参照其他原创作者的教程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值