直裾-优快云博客

原创自定义分区器-基础

这就类似于 Spark 中的分区，每个分区的数据可以在不同的计算节点上同时进行处理，从而加快整个数据处理的速度。例如，若一个 RDD 有 10 个分区，且集群有足够的计算资源，Spark 就可以同时处理这 10 个分区的数据。例如，一个 128MB 的文件在 HDFS 上被分成 2 个 64MB 的块，那么创建的 RDD 默认分区数就是 2。在 Spark 中，分区是指将数据集按照一定的规则划分成多个较小的子集，每个子集可以独立地在不同的计算节点上进行处理，这样可以实现数据的并行处理，提高计算效率。

2025-05-14 08:16:08 253

原创 spark缓存——cache

【代码】spark缓存——cache。

2025-05-09 16:02:40 121

原创 RDD案例——数据清洗

运行结果会生成txt文件。文件名字为output。

2025-05-09 15:44:53 370

原创 RDD算子——行动算子

【代码】RDD算子——行动算子。

2025-05-09 15:16:30 142

原创 Rdd算子——转换算子2

【代码】Rdd算子——转换算子2。

2025-05-09 15:00:11 105

原创 RDD中算子的基本介绍

当行动算子被触发时，它会启动一个作业（Job），这个作业会执行之前记录的所有转换操作，最终得到结果。转换算子是用于对RDD进行操作，从而生成一个新的RDD的算子。时，它会返回一个新的RDD。这个新的RDD是基于原始RDD的每个元素乘以2得到的。会生成一个新的RDD，包含[(1, ("a", "x")), (2, ("b", "y"))]。后，会生成一个新的RDD，其中包含["hello", "world", "hi"]。会打印出RDD中的每个元素。，它会生成一个新的RDD，只包含原始RDD中大于2的元素。

2025-05-07 10:16:56 329

原创 Spark处理过程-转换算子和行动算子

它的核心作用是对具有相同键的所有值进行聚合操作，通过用户提供的聚合函数将这些值合并成一个结果，从而实现数据的归约和统计。：对 RDD 中的每个元素应用给定的函数 f，将每个元素转换为另一个元素，最终返回一个新的 RDD。：筛选出 RDD 中满足函数 f 条件（即 f 函数返回 true）的元素，返回一个新的 RDD，新 RDD 中的元素类型与原 RDD 相同。：对 RDD 中的每个元素应用函数 f，函数 f 返回一个可遍历的集合，然后将这些集合中的元素扁平化合并成一个新的 RDD。

2025-05-07 09:32:03 265

原创克隆虚拟机组成集群

在随后的设置中，请注意两点：（1）要给其他两台虚拟机取不同的名字。要注意，这里是虚拟机的名称，而不是它的hostname。（2）要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下，方便我们统一管理。得到了hadoop101,hadoop102，由于它们是从hadoop100直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。vm软件提供了克隆的功能，它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。

2025-05-07 09:27:45 517

原创 spark数据压缩

即使你的MapReduce的输入输出文件都是未压缩的文件，你仍然可以对Map任务的中间结果输出做压缩，因为它要写在硬盘并且通过网络传输到Reduce节点，对其压缩可以提高很多性能，这些工作只要设置两个属性即可，我们来看下代码怎么设置。mapreduce.output.fileoutputformat.compress.codec（在mapred-site.xml中配置）mapreduce.map.output.compress.codec（在mapred-site.xml中配置）

2025-05-07 09:25:08 809

原创 Spark基础介绍

例如，在机器学习和图计算等需要多次迭代的算法中，Spark 可以显著减少计算时间。Hadoop：Hadoop MapReduce 基于磁盘进行数据处理，数据在 Map 和 Reduce 阶段会频繁地写入磁盘和读取磁盘，这使得数据处理速度相对较慢，尤其是在处理迭代式算法和交互式查询时，性能会受到较大影响。Hadoop：Hadoop 的 MapReduce 编程模型相对较为底层和复杂，开发人员需要编写大量的代码来实现数据处理逻辑，尤其是在处理复杂的数据转换和多阶段计算时，代码量会非常庞大，开发和维护成本较高。

2025-05-07 09:20:43 387

原创在Idea中编写Spark程序并运行（二）

复制之前的文件，重命名为WordCount_online，并修改两个地方：输入目录改成args(0), 输出的目录改成args(1)。完成修改之后，要刷新maven，以下载相关的插件。打包上线之后，我们的代码也要提前改下。修改pom.xml文件。上传到集群，执行代码。

2025-05-07 09:06:01 438

原创在Idea中编写Spark程序并运行

在项目根目录下建立文件夹input，并穿件两个文本文件：word1.txt, word2.txt。(2) 打开命令提示符（CMD），输入以下命令：scala -version 如果显示Scala。IDEA中，默认是不支持编写Scala的，需要额外配置一个插件。如果这里没有看到Scala类的选项，就去检查第2步。添加完成之后，刷新Maven，它会帮助我们去下载依赖。使用Maven创建项目，并在pom.xml文件中配置相关的依赖。在Idea中安装插件，使得Idea中可以编写scala代码。

2025-05-07 09:03:13 415

原创 RDD的五大特征

按照“移动数据不如移动计算”的理念，Spark在进行任务调度时，会尽可能地将任务分配到其所要处理数据块的存储位置。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。举个生活中的例子：高考的时候，每个班的同学都打散到不同的考场，此时的高3（8）班就是一个抽象的概念，在实际中，这个班级的学生可能分布在5个不同的考场。RDD的方法会作用在所有的分区上。

2025-05-07 08:48:35 180

原创 spark——shell中写代码

【代码】spark——shell中写代码。

2025-05-07 08:46:44 114

原创 RDD基本介绍

Resilient Distributed Dataset 叫做弹性分布式数据集，是Spark中最基本的数据抽象，是分布式计算的实现载体，代表一个不可变，可分区，里面的元素并行计算的集合。通过 SparkConf 类，你可以设置应用程序的名称、运行模式（如本地模式、集群模式）、资源分配（如内存、CPU 核心数）等。- Distributed: 分布式存储的，表示数据是存放在不同的机器上的。：集合中的数据可以被并行的计算处理，每个分区数据被一个Task任务处理。方法来创建 RDD。例如，读入外部的文件。

2025-05-07 08:10:51 340

原创搭建spark yarn集群

因为YARN中运行Spark，需要用到Spark的一些类和方法。#如果不上传到HDFS，每次运行YARN都要上传一次，比较慢。-- 历史日志在HDFS保存的时间，单位是秒 --># 启动MR的JobHistoryServer：19888。# 启动Spark的HistoryServer:18080。虚拟机中使用的分发文件，和分发命令脚本资源-优快云文库。#所以自己手动上传一次，以后每次YARN直接读取即可。-- 默认的是-1，表示永久保存 -->-- 关闭yarn内存检查 -->

2025-04-28 19:37:20 396

原创 Spark环境搭建

这里使用单机模式快运行第一个Spark程序，让大家有个基本的印象。在安装Spark时，它就提供了一些示例程序，我们可以直接来调用。进入到spark-local，运行命令spark-submit命令。mv是linux的命令，这里的 \ 是换行输入的意思，整体的代码就只有一句，只不过太长了，我们把它拆开成几个部分来输入，其中\ 的意思就是这里写不下，写在下一行。接下来的操作，我们把它上传到集群中的节点，并解压运行。1.打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。

2025-04-25 15:26:59 171

原创 Spark与Hadoop之间的联系与区别

Spark 不仅支持大规模批处理，还支持实时数据处理（通过 Spark Streaming）、机器学习（通过 MLlib）、SQL 查询（通过 Spark SQL）和图计算（通过 GraphX）。Spark 的核心是 RDD（弹性分布式数据集），它支持多种复杂的数据处理操作，如转换（Transformation）和行动（Action）。是一个高性能的分布式计算框架，可以运行在 Hadoop 的 YARN 资源管理器上，也可以直接读取 HDFS 上的数据。此外，Hadoop 的配置和管理也比较复杂。

2025-04-23 11:13:37 791

原创 yarn的基本介绍

1.Hadoop的三大结构及各自的作用：Hadoop是一个开源的分布式计算框架，它主要包括三大核心组件：HDFS（Hadoop Distributed File System）、YARN（Yet Another Resource Negotiator）和MapReduce。

2025-04-18 15:22:37 352

原创 Spark数据压缩

【代码】Spark数据压缩。

2025-04-16 11:18:38 135

原创 HADOOP——序列化

1.创建一个data目录在主目录下，并且在data目录下新建log.txt文件。2.新建flow软件包，在example软件包下。

2025-04-16 08:38:29 261

原创自定义分区器

【代码】自定义分区器。

2025-04-09 11:00:22 110

原创简单的数据清洗

创建weblog项目，要保证此电脑的文件里面有vm文件在E盘，以及里面有weblogs文件。

2025-04-09 10:04:57 178

原创 Mapreduce的使用

【代码】Mapreduce的使用。

2025-04-02 10:03:09 384

原创 Mapreduce初使用

比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。流式计算的输入数据是动态的，会一条一条的过来，是动态产生的，而MapReduce的输入数据集是静态的，不能动态变化。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

2025-04-02 09:12:23 648

原创【mapreduce】工作原理

Mapper会接收键值对作为输入（通常是文件中的每一行内容），并对每一条记录调用用户自定义的map()函数，生成一系列中间键值对 (key, value)。Reducer接收到所有属于特定key的value列表后，会对它们应用用户定义的reduce()函数，进一步合并、统计或转换这些值。将待处理的大规模数据集按照一定的规则划分为若干个小的数据块（称为“分片”），每个分片可以分配到集群的不同节点。Reduce完成后，结果被写入磁盘或其他持久化存储介质，供后续分析使用。

2025-03-31 19:32:57 316

原创 HDFS客户端操作

在 Java 项目中，通常会使用到许多第三方库。Maven 可以帮助你管理这些依赖项，你只需在项目的 `pom.xml` 文件中声明所需的依赖，Maven 就会自动从远程仓库下载这些依赖项，并将其添加到项目的类路径中。

2025-03-28 15:58:14 223

原创环境变量-

环境变量：环境变量一般是指在操作系统中用来指定操作系统运行环境的一些参数（变量），如：我们在编写C/C++代码的时候，在链接的时候，从来不知道我们所链接的动态静态库（后面学）在哪里，但是照样可以链接成功，生成可执行程序，原因就是有相关环境变量帮助编译器进行查找。环境变量：上面已经介绍过环境变量的概念，也介绍了查看系统环境变量的方法，其在系统中的展示方法通常为，环境变量=值:值…通常环境变量都会存储相应的值，比如：PATH环境变量存储的是常用指令的路径，方便系统快速找到对应命令的路径，从而执行对应命令。

2025-03-26 08:55:56 322

原创 hadoop配置集群-rsync命令同步文件夹

在opt文件夹里面新建conf文件夹，然后——————在hadoop100里面输入：touch 1.txt 2.txt 3.txt 4.txt 新建四个文件。在hadoop100里面输入代码：rsync -av conf/ root@hadoop101:/opt/conf/如果找不到rsync命令。如果要在hadoop100里面的opt新建新的文件，就要在控制台重新输入rsync命令。然后在hadoop101里面的opt文件夹下面的conf文件夹里面刷新就可以出来。下载之后就可以输入rsync命令。

2025-03-12 11:39:36 212

空空如也

空空如也