迹cf-优快云博客

原创如何在 untitled 软件中安装 Scala插件

4.打开全局库，新建全局库。，最后点击确定，则Scala 插件安装成功。2.点击插件，搜索 Scala 进行安装，安装完成后重启软件。3.打开软件点击左上角“文件”，接着点击“项目结构”1.打开软件，点击左上角"文件"，接着点击"设置"

2024-11-11 15:33:33 1192

原创为什么hadoop不用Java的序列化？

Java的序列化框架（Serializable）在对象序列化时会附带大量额外信息，导致效率低下，不适用于网络传输。为此，Hadoop开发了自有的序列化机制（Writable），具有紧凑、快速和互操作的特点。Hadoop序列化机制高效利用存储空间，减少读写数据的额外开销，并支持多语言交互。与Java的序列化相比，Hadoop的序列化机制更适合大数据处理环境，提供了更高效的序列化解决方案。

2025-05-13 10:30:01 427

通过mv spark-3.3.1-bin-hadoop3 spark-local这个命令将解压后的文件夹改成spark-local（重命名是为了后续我们还会使用其他的配置方式，所以这里先重命名一次。三、通过tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/这个命令将spark安装文件到/opt/module下。二、通过finalshell连接虚拟机，连接成功后打开/opt/software，将我们的压缩文件拉到这个目录下。一、首先打开我们的虚拟机。

2025-05-13 10:27:55 258

原创通过jps命令，可以看到什么

来源: NameNode 运行在主节点 (Master) 上，通常通过 start-dfs.sh 或者 start-all.sh 启动脚本启动。功能: DataNode 是实际存储数据块的工作节点，分布在集群的多个 Slave 节点上。功能: NodeManager 是 YARN 下属的一个子模块，专注于单个节点上的容器生命周期管理和服务监控。来源：History Server 则是用来存储已完成应用程序的日志文件，并提供一种机制让用户能够回顾过去作业的表现情况。维护可用资源池的信息。

2025-05-13 10:25:40 298

原创 Linux中的tar命令（tape archive）

1.压缩文件:把多个文件压缩成一个压缩包文件。例如：把1.txt 2.txt 3.txt压缩到test.tar文件中命令是 tar -cvf test.tar 1.txt 2.txt 3.txt。参数：-c 建立一个压缩文件，把多个文件夹压缩到一个新文件中。tar -xvf test.tar -C./temp显示过程。

2025-05-13 10:23:18 301

原创 Hadoop和Spark生态系统

1.来源：Hadoop MapReduce 的历史任务服务器，由 mr-jobhistory-daemon.sh start historyserver 启动。1.来源：Spark 集群的工作节点（Worker Node），由 start-worker.sh 启动。1.来源：Spark 的历史任务服务器，由 start-history-server.sh 启动。1.来源：Hadoop HDFS 的数据节点，由 start-dfs.sh 启动。②接收客户端提交的任务，分配给 Worker 执行。

2025-05-13 10:22:41 234

原创 Spark处理过程-转换算子

行动算子是触发 Spark 计算的“触发点”，因为 Spark 的 RDD 是懒惰计算的，只有在执行行动算子时，才会真正开始计算。它会触发 Spark 作业的实际执行，对 RDD 中的所有元素进行计数，并将最终的计数结果返回给驱动程序。f: T => Unit：这是一个函数，它接收一个类型为 T 的元素（T 为 RDD 中元素的类型），并对该元素执行相应的操作，但不返回任何值（返回类型为 Unit）。返回值：返回一个包含 RDD 中所有元素的数组，数组元素的类型与 RDD 中元素的类型一致。

2025-05-13 10:18:03 709

原创【无标题】

以下是 10 条符合上述示例中数据格式（姓名,年龄,性别）的测试数据，包含了一些可能需要清洗掉的无效数据，你可以将其保存为一个文本文件，用于测试上面的数据清洗程序。假设你有一个包含用户信息的文本文件，每行格式为姓名,年龄,性别，需要清洗掉年龄为空或者非数字的行。这里面:“赵六”的年龄不是有效的数字，在执行数据清洗程序时，这些行应该会被过滤掉。过滤算子中，函数返回为false，就会被过滤掉，函数返回为true，就会被保留下来。// (1)字段拆分，拆分出年龄这个字段。// 3.保存过滤之后的文件。

2025-05-13 10:12:38 292

原创如何创建maven项目

步骤一：打开 IDEA，点击 File -> Settings（Windows/Linux）或者 IntelliJ IDEA -> Preferences（Mac），进入设置界面，然后找到 Build, Execution, Deployment -> Build Tools -> Maven。步骤三：可以在 User settings file 中指定 settings.xml 文件的路径（一般使用默认路径即可），Local repository 中指定本地仓库的路径，配置完成后点击 OK 保存设置。

2025-05-13 10:03:51 718

原创如何安装并使用maven

默认情况下，settings.xml文件位于 Maven 安装目录的 conf文件夹中（例如 D:\Apache\maven\conf\settings.xml）。- 下载最新版本的 Maven 压缩包（`apache-maven-<version>-bin.zip`）。- 在“变量值”中输入 Maven 的安装路径，例如 `D:\Apache\maven`。- 在“环境变量”窗口中，找到并选择 `Path` 环境变量，然后点击“编辑”按钮。- 右键点击“此电脑”或“我的电脑”，选择“属性”。

2025-05-13 09:40:13 453

原创 Spark 和 Hadoop 都是大数据处理领域的重要框架，它们之间既有联系又有区别，以下是详细的对比和联系分析

Spark：基于内存计算，采用弹性分布式数据集（RDD）作为核心数据结构，能够在内存中高效地进行数据处理和迭代计算，大大提高了计算速度，尤其适用于实时计算、交互式查询和机器学习等场景。综上所述，Spark 和 Hadoop 在大数据处理领域各有其独特的优势和适用场景，在实际应用中，通常会根据具体的业务需求和数据特点来选择合适的框架或两者结合使用。Hadoop：由于 MapReduce 模型的限制，数据在磁盘上频繁读写，导致处理速度相对较慢，特别是对于复杂的、需要多次迭代的计算任务。

2025-05-13 09:34:24 381

原创如何用spark程序读取csv文件

2025-05-13 08:46:34 227

原创 Scala高阶函数中的reduce函数

在Scala中，reduce方法用于对不可变序列的元素执行二元规约操作。以下代码展示了如何使用reduce计算数组Array(1,2,3,4,5)中所有元素的和：var res = Array(1,2,3,4,5).reduce((x, y) => x + y)。执行后，res的值为15，即1+2+3+4+5的结果。reduce通过将二元操作（如加法）应用于序列的连续元素，最终返回一个单一的结果。

2025-05-13 08:31:24 270

原创如何在idea中写spark程序

下载并安装Scala 2.12.15，并配置环境变量。：下载并安装Maven 3.5.4，并配置环境变量。：下载并安装IntelliJ IDEA。：在IDEA中安装Scala插件。：下载并安装JDK 1.8。

2025-05-13 08:28:51 520

原创转换算子和行动算子的区别

转换算子会从一个已经存在的数据集 (RDD)中生成一个新的数据集 (RDD),比如map就是一个转换算子，它通过映射关系从一个RDD生成了一个新的RDD。行动算子 (actions): 行动算子在进行数据集计算后会给driver程序返回一个值。转换算子和行动算子最大的。

2025-05-07 15:38:36 193

原创如何搭建spark yarn模式的集群

Spark 作为计算框架，直接运行在 YARN 中，并接受 YARN 的资源调度。Spark 的 Driver 可以运行在 YARN 容器内或提交任务的客户端进程中，而实际执行任务的 Executor 运行在 YARN 提供的容器内。: 在这种模式下，Driver 运行在 YARN 集群中的一个容器内，通常用于生产环境。: 在这种模式下，Driver 运行在客户端机器上，这通常用于学习和测试环境。这样，Spark 就能够读取 HDFS 上的文件并在 YARN 集群中运行。

2025-04-28 20:01:37 224

原创 spark和Hadoop的之间的对比和联系

2025-04-22 08:26:19 462

原创 hadoop的三大组件

1.HDFS（Hadoop分布式文件系统）2.MapReduce（分布式计算模型）3.YARN（资源管理和任务调度）

2025-04-15 11:05:33 196

原创 MapReduce 的工作原理

输入：Map 阶段接收输入数据，通常是键值对（key-value pairs）。输出：Map 函数的输出是新的键值对，这些中间结果将传递给 Reduce 阶段。：输入：Reduce 阶段接收 Shuffle 阶段处理后的数据。处理：Reduce 函数对相同键的值进行合并计算，生成最终结果。输出：Reduce 函数的输出是最终结果，通常存储在 HDFS 中。：分区：将 Map 阶段的输出数据进行分区，每个分区对应一个 Reduce 任务。合并：将相同键的值合并在一起，准备传递给 Reduce 阶段。

2025-03-31 19:43:49 495

原创如何在finals hell进行免密登录

2025-03-26 10:46:01 114

原创大学生实现自律之不在电脑上刷抖音,强制接触美好生活

注意：douyin.com 的前面有个空格。修改保存之后，请再次去浏览器中访问抖音.com 看看是不是抖音已经打不开啦。C/Windows/System32/drivers/etc/hosts,并在这个文件的最后补充一句。

2025-03-10 16:13:59 312

原创如何配置本机host文件

3.用finalshell新建一个连接，并使用hadoop100这个主机名来连接。（1）打开、etc/hostname 这个文件，并修改其中的内容。2.修改本地的hosts文件。1.修改虚拟机主机名。

2025-03-10 15:32:22 631

原创如何用vi编辑器的打开，创建和保存文件的基本操作

3.home键可以快速定位到首行，end键可以快速定位到行尾。5.在命令模式下，按下gg键（两个小写g）跳到文件的第一行。(1) :p退出（2）:w 保存（3）:wq 保存退出（4）:wq!4.按下G键（大写G）可以跳到文件的最后一行。第二步进入编辑模式按一下i a o 三者任意一个（此时，键盘可以正常打字）第四步退出编辑模式按一下esc键 (回到了命令模式)第一步创建/打开：vi a.txt (进入命令模式)输入：wq 敲回车。

2025-03-03 19:32:27 411

原创如何让虚拟机联网，（让虚拟机具备联网功能）

linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！（1）配置vm虚拟机网段具体操作是：点击虚拟机左上角编辑——>虚拟网络编辑。让所有的VM配置的虚拟机使用ANT时，他们的网站都是一致的。（一）如何操作（虚拟机IP一共有三个地方需要配置）判断一台虚拟机是否能联网（ping+一个网站）具体设置为：进入虚拟机，修改对应的IP。（3）设置虚拟机的IP。检查是否能Ping通外网。

2025-03-01 15:30:00 891

原创 vi编辑器

三种模式：（1）命令模式：在这个模式下，所敲的案件编辑器都理解为命令，以命令来驱动执行不同的功能。请注意在这个模型下不能进行文件编辑，当我们通过vi命令第一次打开文件的时候，进入的就是命令模式。（3）底线命令模式：以：开始通常用于文件的保存或推出。（2）编辑模式：此时我们可以修改文件。三种模式是可以相互切换的。

2025-02-27 14:45:00 158

原创输出重定向

会把当前日期覆盖到啊。txt这个文件中，多次运行也只有这一条数据。方法（1）：覆盖掉原来文件中的内容：> （2）：添加到文件的末尾：>>.如果我们希望在创建文件的同时就添加一些内容到文件中，就可以用到输出重定向。echo111>a.txt 就会把111。，如果这个文件不存在，就会顺手创建这个文件。如果这个文件不存在，就会顺手创建这个文件。到a.txt这个文件中。a.txt这个文件中，

2025-02-26 17:30:00 112

原创如何用finalShell连接外网

打开FinalShell软件。

2025-02-26 15:39:27 347

原创如何找正常运行虚拟机

Linux centos7，给虚拟机改个名字不要放在c盘。cd/dvd->2009.iso 启动虚拟机。

2025-02-26 12:00:00 146

原创利用vi编辑器进行复制粘贴删除撤销反撤销等高级操作

(1)dd(两个小写d)用来删除光标所在当前行的内容。(2)ndd（n+两个小d）用来删除当前行往下的n行。（2）nyy(n+两个小写y)复制当前行往下n行内容。(2)ctrl+r 反撤销（重做上一步的操作）（1）yy(两个小写y)复制光标所在行的内容。3.删除删除10行就是 10dd。(1)p（小写p）在当前行的下一行粘贴。(2)P（大写p）在当前行的上一行粘贴。(1)u撤销上一步的操作。

2025-02-25 11:09:13 620