小冻梨！！！-优快云博客

原创 Spark，RDD中的转换算子

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/147890747。对具有相同键的所有值进行聚合操作 = 统计词频词频统计简洁写法。对数字1-10进行过滤，过滤出偶数。对数字1-10进行乘除，*2。reduceByKey算子。filatMap算子。

2025-05-12 11:03:02 314

原创 Spark，在shell中运行RDD程序

rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")在根目录下可见out111文件，文件打开后可以看到，word2.txt文件内单词被拆分RDD的执行过程。原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/147888293。// 将单词转换为元组对象，key是单词，value是数字1。// 将单词进行切割，得到一个存储全部单词的RDD。// 读取文件，得到RDD。按住ctrl+D退出。

2025-05-12 11:02:17 325

原创 spark编写2

命令为：[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。// 写一个spark程序，统计input目录下所有文本文件中单词的词频。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。// 把结果保存在output下。// 保存结果到文件。

2025-05-06 15:17:34 466

原创 spark编写1

添加完成之后，刷新Maven，它会帮助我们去下载依赖。 5.编写代码。如果这里没有看到Scala类的选项，就去检查第2步。之后的设置如下2.将Scala添加到全局库中3.设置maven依赖项。在项目根目录下建立文件夹input，并穿件两个文本文件：word1.txt, word2.txt。它的功能是wordcount的功能：从指定的文件夹中去读取文件，并做词频统计。IDEA中，默认是不支持编写Scala的，需要额外配置一个插件。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。

2025-05-06 15:16:44 329

原创 spark

History Server网址：192.168.56.100:18080HDFS的NameNode网址：http://hadoop100:9870YARN的ResourceManager网址：http://hadoo101:8088。2. MapReduce：计算。1. HDFS：存储。3. YARN：调度。

2025-05-06 15:15:27 118

原创 Spark，集群搭建之Yarn模式

对应命令为：spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 10。进入/opt/module/spark-yarn/sbin，运行： ./start-all.sh 和 ./start-history-server.sh。

2025-05-06 14:35:57 330

原创 Spark，配置历史服务

进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf，再补充两个设置。版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/147734679。

2025-05-06 14:33:17 143

原创 Spark，集群搭建

在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz （eg我的在 /opt/software目录下）把这个软件包解压到 /opt/module 下（也可以自己决定解压到哪里）。进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把 .template 后缀名都删掉再打开。

2025-05-06 14:32:14 235

原创 spark从0配置spark的local模式

4.重命名，把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式，所以这里先重命名一次。mv是linux的命令，在任务还处于运行状态时，可以通过hadoop100:4040来查看注：一旦任务结束，则这个界面就不可访问了。① 打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。2.通过finalshell连接虚拟机，并将文件上传安装文件到 /opt/software下。进入到spark-local，运行命令spark-submit命令。

2025-04-28 22:49:28 135

原创 spark和hadoop的区别与联系

实时数据处理（如 Spark Streaming）、交互式查询（如 Spark SQL）、机器学习（MLlib）、图计算（GraphX）等多场景。组合使用：实际场景中常采用“Hadoop存储数据 + Spark处理数据”的架构，充分利用两者的优势，例如在HDFS上存储原始数据，通过Spark进行实时分析和复杂计算。总之，Hadoop是大数据领域的“地基”，而Spark是构建在其上的“多功能工具”，两者共同推动了大数据技术的发展和应用。二、Spark和Hadoop的区别。1. 同属大数据生态体系。

2025-04-28 22:47:27 525

原创 Spark，数据压缩

原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/147380562。//产生结果的时候，会用3个文件来保存。在下面位置添加下下面代码 //开启reduce端压缩。三、压缩算法对比介绍四、打开我们之前的项目（是下面这个哦）//设置reduceTask的数量。压缩的优点：以减少磁盘IO、减少磁盘存储空间。//设置reduce的个数。// 设置自定义分区器。（1）运算密集型的Job，少用压缩。（2）IO密集型的Job，多用压缩。

2025-04-21 08:56:18 194

原创 Spark，序列化反序列化

原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/147380513。// 2. 使用ObjectInputStream对象中的readObject方法，读取文件中的对象。序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。// 反序列化：将字节序列转换为内存中的对象。// hadoop 反序列化。

2025-04-21 08:55:36 409

原创 Spark，maven打包

流式计算的输入数据是动态的，会一条一条的过来，是动态产生的，而MapReduce的输入数据集是静态的，不能动态变化。注：我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。注：我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

2025-04-21 08:55:04 255

原创 Spark，流量统计案例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/147380421。FlowBean中的代码内容为：package org.example.flow;//三个属性：手机号，上行流量，下行流量。//定义一个获取总流量的方法。//定义get/set方法。提前创好一个文件夹分为四个类。//hadoop 序列化。

2025-04-21 08:47:01 317

原创 Spark，HDFS客户端操作 2

参数优先级排序：（1）客户端代码中设置的值 >（2）然后是服务器的自定义配置（xxx-site.xml） >（3）服务器的默认配置（xxx-default.xml）这一小结，我们来通过hadoop的相关api，实现通过代码的方式去创建文件夹。接下来，我们看如何去下载文件。这里要用的API是fs.delete，用于删除 HDFS 中的文件或目录。文件更名和文件移动本质是一样的：更新了这个文件的访问路径。注：如果执行上面代码，下载不了文件，有可能是你电脑的微软支持的运行库少，需要安装一下微软运行库。

2025-04-21 08:45:36 420

原创 Spark， MapReduce工作原理

该阶段编程模型中有一个 reduce 函数需要开发人员重写，reduce 函数的输入也是一个 <key, value> 对，reduce 函数的输出也是一个 < key,List<value>> 对。该阶段的编程模型中会有一个 map 函数需要开发人员重写，map 函数的输入是一个 < key,value > 对，map 函数的输出也是一个 < key,value > 对，key和value的类型需要开发人员指定。Shuffle：将 Map 输出的键值对按 Key 分组，发送到对应的 Reduce 节点。

2025-04-21 08:44:35 357

原创 Spark，hadoop 集群的常用命令

hadoop jar <JAR文件路径> <主类名> <输入路径> <输出路径>：提交一个 MapReduce 作业。hdfs dfs -rm <路径>：删除指定路径下的文件或目录，若要删除目录，需使用-r选项，如hdfs dfs -rm -r <目录路径>。put '<表名>', '<行键>', '<列族:列限定符>', '<值>'：向指定表的指定行键插入数据。hdfs dfs -cp <源路径> <目标路径>：将文件或目录从源路径复制到目标路径。drop '<表名>'：删除指定的表（需先禁用）。

2025-04-21 08:43:35 260

原创 Spark，配置hadoop集群2

2025-04-21 08:42:20 265

原创 Spark，IDEA编写Maven项目

原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/147380180。在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”。System.out.println("根目录下的文件和目录信息：");注：这些文件都是我们老师帮我们在网上找了改动后给我们的，大家可自行在网上查找。

2025-04-21 08:40:57 349

原创 Spark，hadoop的组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。Yarn和HDFS的关系说明：逻辑上分离，物理上在一起。

2025-04-21 08:40:05 326

原创 Spark；修改配置文件，启动集群，查看运行结果，纠错

则说明：该服务可以接受来自任何 IP 地址的连接请求，Hadoop 的 NameNode（默认在 9870 端口提供服务）已经正常启动并监听端口。若集群是第一次启动，需要在hadoop100节点（指定为namenode的节点）格式化NameNode（注意：格式化NameNode，会产生新的集群id）原文链接：https://blog.youkuaiyun.com/2401_87076452/article/details/146406773。注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行！

2025-04-21 08:39:18 285

原创 Spark，hadoop的组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。Yarn和HDFS的关系说明：逻辑上分离，物理上在一起。

2025-04-21 08:37:21 405

原创 spark工作原理

该阶段编程模型中有一个 reduce 函数需要开发人员重写，reduce 函数的输入也是一个 <key, value> 对，reduce 函数的输出也是一个 < key,List<value>> 对。该阶段的编程模型中会有一个 map 函数需要开发人员重写，map 函数的输入是一个 < key,value > 对，map 函数的输出也是一个 < key,value > 对，key和value的类型需要开发人员指定。Shuffle：将 Map 输出的键值对按 Key 分组，发送到对应的 Reduce 节点。

2025-04-04 22:47:05 533

原创 spark 集群

找到资料包路径下的Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\hadoop-3.1.0）② 在下方系统变量中新建HADOOP_HOME环境变量,值就是保存hadoop的目录。⑤ 打开电脑终端验证Hadoop环境变量是否正常。hadoop客户端环境准备。③ 配置Path环境变量。Maven的配置同上。

2025-04-04 22:46:17 205

原创 spark

把本地的文件上传到HDFS,并删除本地的文件。(1)文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传；使用-rm -r命令，它用来删除目录及目录里面内容，它的格式是： -rm -r 要删除的文件夹。使用-mkdir命令。使用-mv命令，它的格式是： hadoop fs -mv 文件起点终点。hadoop fs -get （服务器上的文件路径本地文件路径)表示从HDFS的一个路径拷贝到HDFS的另一个路径。2.如果要保留本地的文件，可以使用 -put 命令。

2025-04-04 22:45:18 1044

原创 aspark 配置2

启动命令：[root@hadoop100 sbin]# myhadoop start。关闭命令：[root@hadoop100 sbin]# myhadoop stop。分配完成后可在其他设备上关闭myhadoop。像下图这样查看显示绿色即代表成功！1.建立新文件，编写脚本程序。保存后退出，然后赋予脚本执行权限。编写Hadoop集群启停脚本。

2025-04-04 22:29:12 441

原创 spark 配置

方式1：直接去看所有的历史记录 http://hadoop100:19888/jobhistory。在hadoop的安装目录下，打开mapred-site.xml，并在该文件里面增加如下两条配置。同样也是在hadoop100内找到yarn-site.xml文件，我们添加如下的配置。对应的命令是： mapred --daemon start historyserver。请注意：你在配置的时候指定哪个节点是历史服务器，就在哪里启动，请不要搞错了。通过jps命令来查看历史服务器是否已经成功启动了。

2025-04-04 22:28:24 229

原创 spark

在NameNode上上传<128M文件时可直接上传当文件>128M时会将这个大文件拆分为多个小文件上传。在FinalShell上用命令上传文件就是。先使用命令打开HDFS的NameNode。上传的文件下载下来…2.在yarn上查看上传的文件。上传小文件（小于128M）上传大文件（大于128M）刷新yarn即可查看。

2025-04-04 22:27:39 304

原创 Spark；scp命令，rsync命令，ssh命令

伪分布式：也是在一台单机上运行，但用不同的 Java 进程模仿分布式运行中的各类节点，特点：Hadoop 启动的这些守护进程都在同一台机器上运行，是相互独立的 Java 进程。eg命令：scp -r /opt/module/jdk1.8.0_212/ root@hadoop102:/opt/module/jdk1.8.0_212/命令：rsync -av /opt/conf/1.txt root@roothadoop102:/opt/conf/$pdir/$fname ：要拷贝的文件路径 / 名称。

2025-03-10 19:23:29 339

原创 spark Linux配置

要注意，这里是虚拟机的名称，而不是它的hostname。（2）要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下，方便我们统一管理。克隆之后，我们得到了hadoop002,hadoop003，由于它们是从hadoop001直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！

2025-03-08 14:45:22 350

原创 spark yum配置

把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。这个源已经失效了，就是你的默认供货商跑路了！如果是win11，它在Windows/system32/hosts 文件，如果是win10，它在C:\Windows\System32\drivers\etc\hosts。我们打开这个文件，并在最后一行的后边，添加三个新行，内容是：IP地址主机名 eg：192.168.56.101 hadoop100（注：IP地址和主机名之间有一个空格）网络上的免费而稳定的源有很多，这里我们选择阿里云的源。

2025-03-08 14:43:58 346

原创 spark 常见操作命令

这里要注意一下：VMware net work Adpater VMnet8是安装了Vm这个软件之后会自动产生的。重启的命令是reboot，检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。选择VMnet8，要改动两个地方（注意：它会需要管理员权限）：。让所有的VM配置的虚拟机使用NAT时，它们的网段都是一致的。(3) 最后，关闭服务器的防火墙。配置即让自己的虚拟机可以联网，和别的虚拟机通讯。三、设置虚拟机hadoop100的IP。

2025-03-03 19:15:08 489

原创安装vm和centOS

1. 下载 VMware Workstation Pro 访问 VMware 官方网站（https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html ），根据自己的操作系统版本下载对应的 VMware Workstation Pro 安装程序。- 在安装信息摘要界面，设置“安装位置”、“软件选择”等选项： - 点击“安装位置”，选择自动分区或手动分区，然后点击“完成”。- 安装完成后，点击“完成”。

2025-02-25 14:33:08 414

空空如也

空空如也