Amu_Yalo-优快云博客

原创 Spark，SparkSQL DataFrame

DataFrame 定义：一种分布式的数据集，类似于二维表格（MySQL数据库中的数据表）

2025-05-19 08:08:35 237

原创 Spark，数据提取和保存

中上一个内容进去的地方打如下代码，系统就会认识中文（系统默认英文）在data下创建一个名为user.csv的文件。运行一下结果在shell中输出。

2025-05-19 08:06:23 218

println("第二次计算消耗的时间：" + (endTime1 - startTime1) + "毫秒")println("第一次计算消耗的时间：" + (endTime - startTime) + "毫秒")// cache 是persist的一种特殊情况。//第一次触发行动算子，计算并统计消耗的时间。//第二次触发行动算子，计算并统计消耗的时间。1.map算子是转换算子，并不会导致真正的计算。//创建一个包含大量随机数的RDD。//定义一个复杂的转换函数。// Spark的缓存。

2025-05-19 08:04:55 278

原创 Spark，连接MySQL数据库，添加数据，读取数据

在IDEA中打代码如果能输出跟shell中一样的结果即证明连接成功。像我前面出错的原因就是在打代码时将密码输入错误。就是在上面代码中一起展示了，这里我就不单独说了。

2025-05-19 08:03:09 154

原创 Spark，SparkSQL操作Mysql，创建数据库和表

6.后输入以下5条命令安装mysqlrpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm。通过命令：show databases;2.想我上面输出了有结果的即证明有，使用下列命令删除即可。8.查看临时密码（eg：我的临时密码在最下面）3.进入我们常用存放压缩包的地方。SparkSQL操作Mysql。1.查看系统内是否有mysql。使root允许任意ip连接。4.将压缩包拖入后解压。7.安装后初始化数据库。

2025-05-19 08:01:16 273

原创解决问题…

后使用代码[root@hadoop100 bin]# hdfs dfsadmin -safemode leave。返回结果 “Safe mode is OFF” 表明 NameNode 已成功退出安全模式。一开始我的Hadoop 的 NameNode 处于安全模式，故代码无法执行。

2025-05-19 07:57:36 208

原创 Spark，RDD中的行动算子

返回值：该算子的返回类型为 Unit，即不返回任何有意义的值，它主要是为了执行副作用操作。格式：def reduce(func: (T, T) => T): T。格式：def foreach(f: T => Unit): Unit。返回值：返回一个单一的值，其类型与 RDD 中元素的类型相同。格式：def collect(): Array[T]count，聚合操作 eg：计算。参数说明：该算子没有参数。

2025-05-13 14:24:46 399

原创 Spark，RDD中的转换算子

对具有相同键的所有值进行聚合操作 = 统计词频。对数字1-10进行过滤，过滤出偶数。对数字1-10进行乘除，*2。

2025-05-12 10:27:59 347

原创 Spark，在shell中运行RDD程序

/ 将元组的value按照key来分组，对所有的value执行聚合操作(相加)在根目录下可见out111文件，文件打开后可以看到，word2.txt文件内单词被拆分。在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词。// 将单词转换为元组对象，key是单词，value是数字1。// 将单词进行切割，得到一个存储全部单词的RDD。// 收集RDD的数据并打印输出结果。// 将结果储存在out111中。// 读取文件，得到RDD。按住ctrl+D退出。

2025-05-12 09:05:02 433

原创 Spark，Idea中编写Spark程序 2

命令为：[root@hadoop100 sbin]# spark-submit --class WordCount_online --master yarn /opt/module/original-untitled-1.0-SNAPSHOT.jar /wcinput /output1。// 写一个spark程序，统计input目录下所有文本文件中单词的词频。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。// 把结果保存在output下。// 保存结果到文件。

2025-05-06 14:29:02 757

原创 Spark，Idea中编写Spark程序 1

在项目根目录下建立文件夹input，并穿件两个文本文件：word1.txt, word2.txt。它的功能是wordcount的功能：从指定的文件夹中去读取文件，并做词频统计。如果这里没有看到Scala类的选项，就去检查第2步。IDEA中，默认是不支持编写Scala的，需要额外配置一个插件。添加完成之后，刷新Maven，它会帮助我们去下载依赖。// 提取文本内容并执行 WordCount 操作。// 将所有分区的数据合并成一个分区。// 读取目录下的所有文本文件。// 保存结果到文件。

2025-05-06 14:26:48 586

原创 Spark，所用几个网页地址

History Server网址：192.168.56.100:18080。1. HDFS：存储。3. YARN：调度。

2025-05-06 14:22:44 425

原创 Spark，集群搭建之Yarn模式

对应命令为：spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 10。进入/opt/module/spark-yarn/sbin，运行： ./start-all.sh 和 ./start-history-server.sh。

2025-05-06 14:20:39 818

原创 Spark，配置历史服务

配置历史服务一、停止任务进入/opt/module/spark-standalone/sbin，运行命令：二、修改配置进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf，再补充两个设置。

2025-05-06 14:18:27 478

原创 Spark，集群搭建-Standalone

集群搭建-Standalone一、解压在之前的学习中我们有了一个软件包 spark.3.1.2-bin-hadoop3.2.tgz （eg我的在 /opt/software目录下）把这个软件包解压到 /opt/module 下（也可以自己决定解压到哪里）。对应的命令是：二、重命名进入 /opt/module/ 把解压的内容右键重命名一下为 spark-standalone ，也可使用命令：三、配置环境变量,更新spark路径。

2025-05-06 14:16:26 800

原创 Spark，从0开始配置Spark的local模式

4.重命名，把解压后的文件夹改成spark-local。因为后续我们还会使用其他的配置方式，所以这里先重命名一次。① 打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。2.通过finalshell连接虚拟机，并将文件上传安装文件到 /opt/software下。进入到spark-local，运行命令spark-submit命令。3.解压spark安装文件到/opt/module下。注：一旦任务结束，则这个界面就不可访问了。从0开始配置Spark的local模式。

2025-04-28 22:44:21 339

原创 Spark和hadoop的区别与联系

实时数据处理（如 Spark Streaming）、交互式查询（如 Spark SQL）、机器学习（MLlib）、图计算（GraphX）等多场景。组合使用：实际场景中常采用“Hadoop存储数据 + Spark处理数据”的架构，充分利用两者的优势，例如在HDFS上存储原始数据，通过Spark进行实时分析和复杂计算。总之，Hadoop是大数据领域的“地基”，而Spark是构建在其上的“多功能工具”，两者共同推动了大数据技术的发展和应用。二、Spark和Hadoop的区别。1. 同属大数据生态体系。

2025-04-28 22:41:25 958

原创 Spark，数据压缩

然后在第七点上面添加//设置reduceTask的数量//产生结果的时候，会用3个文件来保存// 设置自定义分区器//设置reduce的个数注意：第六点要注释哦。

2025-04-21 08:53:26 253

原创 Spark，序列化反序列化

/ 1. 创建一个ObjectInputStream对象，构造方法中传入一个InputStream对象。// 2. 使用ObjectInputStream对象中的readObject方法，读取文件中的对象。序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。常用的Java的数据类型与Hadoop的序列化的类型对比。// 反序列化：将字节序列转换为内存中的对象。

2025-04-21 08:49:52 669

原创 Spark，maven打包

一、maven打包1.maven打包MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序（例如：jar包），并发运行在一个Hadoop集群上。在pom.xml中，补充如下配置，它用来设置打包的java 版本。注：我们集群上安装的java环境是1.8的，那么我们生成的代码也必须是这个版本的，否则，就会无法运行。

2025-04-21 08:47:25 538

原创 Spark，流量统计案例

拥有一个文件，其中文件内容(内容随便写符合规矩即可)分别为电话号码上行流量下行流量(第一行是写给大家看的注释不用写出来)FlowBean中的代码内容为：package org.example.flow;//三个属性：手机号，上行流量，下行流量。//定义一个获取总流量的方法。//定义get/set方法。//hadoop 序列化。

2025-04-21 08:44:46 451

原创 Spark，HDFS客户端操作 2

这一小结，我们来通过的相关api，实现通过代码的方式去创建文件夹。我们的目标是：在根目录下去创建一个名为maven的文件夹。要用到的api是fs.mkdirs。核心代码如下：// 1 获取文件系统// hadoop100是namenode所在的节点// 2 创建新文件// 3 关闭资源fs.close();此时，需要去设置登录的用户名。然后再去尝试。去到hdfs的UI界面上去检查是否运行成功。

2025-04-21 08:42:11 1054

原创 Spark，IDEA编写Maven项目

在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”。System.out.println("路径: " + fileStatus.getPath());这里的dependencies要这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。System.out.println("根目录下的文件和目录信息：");

2025-04-21 08:36:20 958

原创 Spark， MapReduce工作原理

该阶段编程模型中有一个 reduce 函数需要开发人员重写，reduce 函数的输入也是一个 <key, value> 对，reduce 函数的输出也是一个 < key,List<value>> 对。该阶段的编程模型中会有一个 map 函数需要开发人员重写，map 函数的输入是一个 < key,value > 对，map 函数的输出也是一个 < key,value > 对，key和value的类型需要开发人员指定。Shuffle：将 Map 输出的键值对按 Key 分组，发送到对应的 Reduce 节点。

2025-04-04 22:43:25 775

原创 Spark，hadoop 集群的常用命令

hadoop jar <JAR文件路径> <主类名> <输入路径> <输出路径>：提交一个 MapReduce 作业。hdfs dfs -rm <路径>：删除指定路径下的文件或目录，若要删除目录，需使用-r选项，如hdfs dfs -rm -r <目录路径>。put '<表名>', '<行键>', '<列族:列限定符>', '<值>'：向指定表的指定行键插入数据。hdfs dfs -cp <源路径> <目标路径>：将文件或目录从源路径复制到目标路径。drop '<表名>'：删除指定的表（需先禁用）。

2025-04-04 22:39:45 154

原创 Spark，HDFS客户端操作

找到资料包路径下的Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\hadoop-3.1.0）② 在下方系统变量中新建HADOOP_HOME环境变量,值就是保存hadoop的目录。⑤ 打开电脑终端验证Hadoop环境变量是否正常。hadoop客户端环境准备。③ 配置Path环境变量。Maven的配置同上。

2025-04-04 22:36:54 383

原创 Spark，HDFS概述

把本地的文件上传到HDFS,并删除本地的文件。(1)文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传；使用-rm -r命令，它用来删除目录及目录里面内容，它的格式是： -rm -r 要删除的文件夹。使用-mkdir命令。使用-mv命令，它的格式是： hadoop fs -mv 文件起点终点。hadoop fs -get （服务器上的文件路径本地文件路径)表示从HDFS的一个路径拷贝到HDFS的另一个路径。2.如果要保留本地的文件，可以使用 -put 命令。

2025-04-04 22:30:49 484

原创 Spark，配置hadoop集群2

启动命令：[root@hadoop100 sbin]# myhadoop start。关闭命令：[root@hadoop100 sbin]# myhadoop stop。分配完成后可在其他设备上关闭myhadoop。像下图这样查看显示绿色即代表成功！1.建立新文件，编写脚本程序。保存后退出，然后赋予脚本执行权限。编写Hadoop集群启停脚本。

2025-04-04 22:25:41 344

原创 Spark，配置hadoop集群1

和之前的配置一样，我们需要把这个更新之后的yarn-site.xml文件同步到其他的机器。在hadoop的安装目录下，打开mapred-site.xml，并在该文件里面增加如下两条配置。进入到我们安装yarn的主机，通过命令来关闭掉yarn和historyServer，然后再重启。同样也是在hadoop100内找到yarn-site.xml文件，我们添加如下的配置。请注意：你在配置的时候指定哪个节点是历史服务器，就在哪里启动，请不要搞错了。然后在点击logs，就可以查看运行日志的详情了。

2025-04-04 22:18:37 368

原创 Spark，上传文件

在NameNode上上传<128M文件时可直接上传当文件>128M时会将这个大文件拆分为多个小文件上传。在FinalShell上用命令上传文件就是。先使用命令打开HDFS的NameNode。上传的文件下载下来…2.在yarn上查看上传的文件。上传小文件（小于128M）上传大文件（大于128M）刷新yarn即可查看。

2025-04-04 22:07:18 247

原创 Spark，hadoop的组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。Yarn和HDFS的关系说明：逻辑上分离，物理上在一起。

2025-03-31 19:23:07 552

原创 Spark；修改配置文件，启动集群，查看运行结果，纠错

解决办法：可以尝试使用 IP 地址（如 http://192.168.56.100:9870 和 http://192.168.56.100:50070）来访问，看是否能正常访问，以判断是否是域名解析的问题。你还可以通过访问 NameNode 的 Web 界面（即 http://hadoop100:8970）来查看 HDFS 的状态信息。若集群是第一次启动，需要在hadoop100节点（指定为namenode的节点）格式化NameNode（注意：格式化NameNode，会产生新的集群id）

2025-03-20 21:31:00 621

原创 Spark，hadoop的组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。Yarn和HDFS的关系说明：逻辑上分离，物理上在一起。

2025-03-20 10:58:46 568

原创 Spark；scp命令，rsync命令，ssh命令

伪分布式：也是在一台单机上运行，但用不同的 Java 进程模仿分布式运行中的各类节点，特点：Hadoop 启动的这些守护进程都在同一台机器上运行，是相互独立的 Java 进程。eg命令：scp -r /opt/module/jdk1.8.0_212/ root@hadoop102:/opt/module/jdk1.8.0_212/命令：rsync -av /opt/conf/1.txt root@roothadoop102:/opt/conf/$pdir/$fname ：要拷贝的文件路径 / 名称。

2025-03-10 19:21:47 428

原创 spark，linux克隆

要注意，这里是虚拟机的名称，而不是它的hostname。（2）要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下，方便我们统一管理。克隆之后，我们得到了hadoop002,hadoop003，由于它们是从hadoop001直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！

2025-03-08 14:32:47 319

原创 spark yum配置

把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。这个源已经失效了，就是你的默认供货商跑路了！如果是win11，它在Windows/system32/hosts 文件，如果是win10，它在C:\Windows\System32\drivers\etc\hosts。我们打开这个文件，并在最后一行的后边，添加三个新行，内容是：IP地址主机名 eg：192.168.56.101 hadoop100（注：IP地址和主机名之间有一个空格）网络上的免费而稳定的源有很多，这里我们选择阿里云的源。

2025-03-08 14:26:03 573

原创 spark，linux配置

这里要注意一下：VMware net work Adpater VMnet8是安装了Vm这个软件之后会自动产生的。重启的命令是reboot，检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。让所有的VM配置的虚拟机使用NAT时，它们的网段都是一致的。修改完成之后，esc退出编辑模式， :wq 保存退出。配置即让自己的虚拟机可以联网，和别的虚拟机通讯。三、设置虚拟机hadoop100的IP。具体设置为：进入虚拟机，修改对应的IP。

2025-02-28 00:06:04 265

原创安装VM和Centos

此刻已完成Centos的安装与创建。5.设置磁盘大小并拆分为多个文件。1.上述过程完成后直接打开虚拟机。3.默认安装位置并点击完成。重启后使用密码进入该系统。6.安装完成后点击重启。二、安装Centos。

2025-02-25 11:05:33 459

原创 spark，vi

1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：new file。d(一个小d)加←删除左侧一个单词，d(一个小d)加→删除右侧一个单词。vi编辑器有三种工作模式，分别为：命令模式，输入模式，底线模式。2.如果文件已存在，此时就打开这个文件，进入命令模式。底线命令模式：以：开始，通常用于文件的保存和退出。2.nyy(n+两个小y)复制当前行往下n行内容。2.ndd(n+两个小d)用来删除当前行往下n行。nyy(n+两个小y)复制当前行往下n行内容。1.yy（两个 y）复制光标所在行的内容。

2025-02-24 20:43:37 299

原创 spark虚拟机

会把aaa、这三个字符写入a.txt文件，并把之前的内容全部覆盖掉（等价于先删除了a.txt的内容，再写入aaa）会把文件的最尾部的内容显示在屏幕上，并且不断刷新，只要文件有更新，就可以看到最新的文件内容。命令是：tar -cvf test.tar 1.txt 2.txt 3.txt。-x 表示解压文件。示例1：把1.txt，2.txt，3.txt压缩到test.tar文件中。格式：tar -cvf 压缩包.tar 文件1 文件2 文件3。-c 建立一个压缩文件，把多个文件或文件夹压缩到一个新的文件中。

2025-02-24 20:32:02 311

空空如也

空空如也