今天我又学废了-优快云博客

原创 Spark，SparkSQL DataFrame

sparksql DataFrame 定义：一种分布式的数据集，类似于二维表格（MySQL数据库中的数据表）

2025-05-19 07:00:00 218

原创 Spark，数据提取和保存

在shell中上一个内容进去的地方打如下代码，系统就会认识中文（系统默认英文）在data下创建一个名为user.csv的文件。运行一下结果在shell中输出。

2025-05-18 07:00:00 185

原创 Spark，Spark缓存Cache

2.第一次调用collect和第二调用collect花的时间基本一致。这就是没有缓存的效果。1.map算子是转换算子，并不会导致真正的计算。带缓存的可以看到第二次明显比第一次快很多。

2025-05-17 13:15:00 256

原创 Spark，连接MySQL数据库，添加数据，读取数据

在IDEA中打代码如果能输出跟shell中一样的结果即证明连接成功。读取数据就是在上面代码中一起展示了，这里我就不单独说了。像我前面出错的原因就是在打代码时将密码输入错误。可以看到shell中我们读取出的数据。

2025-05-17 10:00:00 252

原创 Spark，SparkSQL操作Mysql，创建数据库和表

通过命令：show databases;2.想我上面输出了有结果的即证明有，使用下列命令删除即可。8.查看临时密码（eg：我的临时密码在最下面）6.后输入以下5条命令安装mysql。3.进入我们常用存放压缩包的地方。SparkSQL操作Mysql。1.查看系统内是否有mysql。使root允许任意ip连接。4.将压缩包拖入后解压。7.安装后初始化数据库。

2025-05-16 18:11:38 803

原创解决问题…

后使用代码[root@hadoop100 bin]# hdfs dfsadmin -safemode leave。返回结果 “Safe mode is OFF” 表明 NameNode 已成功退出安全模式。一开始我的Hadoop 的 NameNode 处于安全模式，故代码无法执行。

2025-05-16 15:23:17 162

原创 Spark，数据清洗

eg：如下姓名+年龄+性别而数据中我们可明显看到第2,7行数据是错误的，现在我们把它洗掉。coalesce(1)这个方法可以让结果全部保存在一个文件中。运行结果：可以看到“脏”数据已经被洗出去了。如何把清洗之后的数据保存到一个文件中？先创建一个文档然后写几条数据。

2025-05-16 15:16:54 742

返回值：该算子的返回类型为 Unit，即不返回任何有意义的值，它主要是为了执行副作用操作。格式：def reduce(func: (T, T) => T): T。格式：def foreach(f: T => Unit): Unit。返回值：返回一个单一的值，其类型与 RDD 中元素的类型相同。格式：def collect(): Array[T]count，聚合操作 eg：计算rdd中的元素之和。参数说明：该算子没有参数。

2025-05-13 13:00:00 161

原创 Spark，RDD中的转换算子

对具有相同键的所有值进行聚合操作 =对数字1-10进行过滤，过滤出偶数。对数字1-10进行乘除，*2。

2025-05-12 09:37:33 646

原创 Spark，在shell中运行RDD程序

在根目录下可见out111文件，文件打开后可以看到，word2.txt文件内单词被拆分。在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词。进入环境：spark-shell --master yarn。按住ctrl+D退出。

2025-05-09 17:35:10 406

原创 Spark，Idea中编写Spark程序 2

修改两个地方：输入目录改成args(0), 输出的目录改成args(1)。出现结果如下即为运行成功。

2025-05-04 23:00:00 491

原创 Spark，Idea中编写Spark程序 1

8.准备待统计的词频文件。在项目根目录下建立文件夹input，并穿件两个文本文件：word1.txt, word2.txt。它的功能是wordcount的功能：从指定的文件夹中去读取文件，并做词频统计。6.新建Scala类。如果这里没有看到Scala类的选项，就去检查第2步。3.设置maven依赖项。添加完成之后，刷新Maven，它会帮助我们去下载依赖。1.启动idea,选择新建项目。IDEA中，默认是不支持编写Scala的，需要额。选择Object，输入WordCount。

2025-05-03 04:00:00 276

原创 Spark，所用几个网页地址

History Server网址：192.168.56.100:18080。

2025-05-02 08:00:00 238

原创 Spark，集群搭建之Yarn模式

spark-defaults.conf.template 改成 spark-defaults.conf。打开 /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml 因为测试环境虚拟机内存较少，防止执行过程进行被意外杀死，添加如下配置。上传并解压spark-3.1.2-bin-hadoop3.2.tgz，重命名解压之后的目录为spark-yarn。启动spark和spark的历史服务器。

2025-05-01 10:30:00 344

原创 Spark，配置历史服务

进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf，再补充两个设置。启动hadoop的hdfs服务（start-dfs.sh）,并在根目录创建目录directory。可以通过命令行的方式来创建，也可以通过hadoop100:9870的页面操作来创建。4、5两步在上一条博客中直接一起配置了，所以这里可自行跳过。

2025-04-30 08:30:00 418

原创 Spark，集群搭建-Standalone

在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz （eg我的在 /opt/software目录下）把这个软件包解压到 /opt/module 下（也可以自己决定解压到哪里）。进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。打开 /opt/module/spark-standalone/conf 中可看到修改文件内容前把。内容设置为三个主机名。

2025-04-29 16:06:24 763

原创 Spark，从0开始配置Spark的local模式

4.重命名，把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式，所以这里先重命名一次。① 打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。2.通过finalshell连接虚拟机，并将文件上传安装文件到 /opt/software下。进入到spark-local，运行命令spark-submit命令。在任务还处于运行状态时，可以通过hadoop100:4040来查看。3.解压spark安装文件到/opt/module下。

2025-04-21 10:25:41 615

原创 Spark和hadoop的区别与联系

若需求为离线批处理、海量数据存储（如日志归档），且对实时性要求不高，Hadoop仍是经济高效的选择。

2025-04-21 08:35:38 704

原创 Spark，数据压缩

压缩格式hadoop自带算法文件扩展名是否可切片换成压缩格式后，原来的程序是否需要修改DEFLATE是，直接使用DEFLATE.deflate否和文本处理一样，不需要修改Gzip是，直接使用DEFLATE.gz否和文本处理一样，不需要修改bzip2是，直接使用bzip2.bz2是和文本处理一样，不需要修改LZO否，需要安装LZO.lzo是需要建索引，还需要指定输入格式Snappy是，直接使用Snappy.snappy否。

2025-04-17 14:28:01 416

原创 Spark，序列化反序列化

通过文件输入流读入文件，并使用ObjectInputStream来进一步实例化对象，然后调用readObject来生成对象。序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。常用的Java的数据类型与Hadoop的序列化的类型对比。新建文件输出流对象，并写入要实例化的实例。

2025-04-15 07:00:00 152

原创 Spark，maven打包

在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。流式计算的输入数据是动态的，会一条一条的过来，是动态产生的，而MapReduce的输入数据集是静态的，不能动态变化。我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。修改driver类的代码，更新输入和输入路径。

2025-04-14 08:39:04 704

原创 Spark，流量统计案例

拥有一个文件，其中文件内容(内容随便写符合规矩即可)分别为电话号码上行流量下行流量(第一行是写给大家看的注释不用写出来)提前创好一个文件夹分为四个类。

2025-04-08 16:03:31 238

原创 Spark，HDFS客户端操作 2

这一小结，我们来通过hadoop的相关api，实现通过代码的方式去创建文件夹。我们的目标是：在根目录下去创建一个名为maven的文件夹。要用到的api是fs.mkdirs。运行后我们可能会遇到一个错误：此时，需要去设置登录的用户名。然后再去尝试。去到hdfs的UI界面上去检查是否运行成功。

2025-04-08 12:00:00 587

原创 Spark，IDEA编写Maven项目

在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”。这里的dependencies要这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。这些文件都是我们老师帮我们在网上找了改动后给我们的，大家可自行在网上查找。3.创建包为org.example，并在下面创建Main类。1.在之前创建的pom.xml文件中添加下列代码。IDEA中编写Maven项目。3.IDEA中配置Maven。编写代码测试HDFS连接。

2025-04-07 15:35:08 522

原创 Spark， MapReduce工作原理

MapReduce 是 Hadoop 用于分布式计算的编程模型。

2025-04-04 10:00:00 716

原创 Spark，hadoop 集群的常用命令

【代码】Spark，hadoop 集群的常用命令。

2025-04-03 21:30:00 269

原创 Spark，HDFS客户端操作

找到资料包路径下的Windows依赖文件夹，拷贝。打开电脑终端验证Hadoop环境变量是否正常。,值就是保存hadoop的目录。hadoop客户端环境准备。adoop-3.1.0到。Maven的配置同上。

2025-04-01 23:00:00 375

原创 Spark，HDFS概述

当 NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。(1) 辅助 NameNode，分担其工作量，比如定期合并 Fsimage 和 Edits，并推送给 NameNode；(1)文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传；(4) Client 提供一些命令来管理 HDFS，比如 NameNode 格式化；命令，它的格式是： hadoop fs -mv 文件起点终点。(2)与 NameNode 交互，获取文件的位置信息；

2025-04-01 13:35:01 825

原创 Spark，配置hadoop集群2

编写Hadoop集群启停脚本1.建立新文件，编写脚本程序在hadoop101中操作，在/root/bin下新建文件：myhadoop。

2025-04-01 13:03:53 205

原创 Spark，配置hadoop集群1

同样也是在hadoop100内找到yarn-site.xml文件，我们添加如下的配置。和之前的配置一样，我们需要把这个更新之后的yarn-site.xml文件。你在配置的时候指定哪个节点是历史服务器，就在哪里启动，请不要搞错了。在hadoop的安装目录下，打开mapred-site.xml，并。关闭掉yarn和historyServer，然后再重启。点击对应的JobID，就可以进一步查看任务运行日志。然后在点击logs，就可以查看运行日志的详情了。进入到我们安装yarn的主机，通过命令来。

2025-03-31 22:19:23 824

原创 Spark，上传文件

在FinalShell上用命令上传文件就是。上传的文件下载下来…时会将这个大文件拆分为多个小文件上传。文件时可直接上传当文件。NameNode上上。随机创建一个小文件在。刷新yarn即可查看。

2025-03-31 21:49:42 502

原创 Spark；修改配置文件，启动集群，查看运行结果，纠错

接下来配置第二个文件，/opt/module/hadoop-3.1.3/etc/hadoop。当前要操作的文件是：/opt/module/hadoop-3.1.3/etc/hadoop。则说明：该服务可以接受来自任何 IP 地址的连接请求，Hadoop 的。配置/opt/module/hadoop-3.1.3/etc/hadoop。配置/opt/module/hadoop-3.1.3/etc/hadoop。同步给其他的机器，并使用source命令，让环境变量生效！解决办法：使用命令确认一下。

2025-03-18 10:00:00 1386

原创 Spark，hadoop的组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。Yet Another Resource Negotiator，简称YARN，另一种资源协调者，是Hadoop的资源管理器。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来。个组成部分：MapReduce，Yarn，HDFS。

2025-03-17 21:41:12 394

原创 Spark；scp命令，rsync命令，xsync同步，ssh命令

eg命令：scp -r /opt/module/jdk1.8.0_212/ root@hadoop102:/opt/module/jdk1.8.0_212/命令：rsync -av /opt/conf/1.txt root@roothadoop102:/opt/conf/eg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。此时，我们去查看文件，可以看到它的颜色是灰色的，不具备执行权限（如下图）。这个部分的代码不需要会写，能看懂，了解即可。

2025-03-10 13:38:23 500

原创 Spark，Linux克隆

查看虚拟机ip命令：ip addr克隆克隆出多台虚拟机。

2025-03-04 08:45:00 358

原创 Spark，Linux yum配置

把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。这个源已经失效了，就是你的默认供货商跑路了！如果是win11，它在Windows/system32/hosts 文件，如果是win10，它在C:\Windows\System32\drivers\etc\hosts。我们打开这个文件，并在最后一行的后边，添加三个新行，内容是：IP地址主机名 eg：192.168.56.101 hadoop100（注：IP地址和主机名之间有一个空格）网络上的免费而稳定的源有很多，这里我们选择阿里云的源。

2025-03-03 21:41:07 487

原创 Spark，Linux配置

这里要注意一下：VMware net work Adpater VMnet8是安装了Vm这个软件之后会自动产生的。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。命令是reboot，检查是否能Ping通外网。让所有的VM配置的虚拟机使用NAT时，它们的网段都是一致的。eg：修改打开的文件内容为: hadoop100。修改完成之后，esc退出编辑模式， :wq 保存退出。配置即让自己的虚拟机可以联网，和别的虚拟机通讯。进入虚拟机，修改对应的IP。

2025-02-26 10:30:00 584

原创安装VM和Centos

安装VM。

2025-02-25 06:15:00 364

原创 Spark，vi的基本使用

1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：new file。d(一个小d)加←删除左侧一个单词，d(一个小d)加→删除右侧一个单词。vi编辑器有三种工作模式，分别为：命令模式，输入模式，底线模式。2.如果文件已存在，此时就打开这个文件，进入命令模式。底线命令模式：以：开始，通常用于文件的保存和退出。2.nyy(n+两个小y)复制当前行往下n行内容。2.ndd(n+两个小d)用来删除当前行往下n行。nyy(n+两个小y)复制当前行往下n行内容。1.yy（两个 y）复制光标所在行的内容。

2025-02-24 11:35:14 407

原创 Spark ，虚拟机（Linux）基本命令（2）

cp 命令，复制格式：cp 源文件目标文件cp -r 命令复制目录格式：cp -r 源文件目标文件夹mv 命令，重命名和移动格式：mv 源文件目标文件说明：若源文件和目标文件在同一个目录下，就是重命名，否则就是移动。重命名操作：mv file.txt newfile.txt移动操作：mv file.txt newdir/file.txt。

2025-02-24 10:36:49 446

空空如也

空空如也