洋芋爱吃芋头-优快云博客

原创 MySQL数据配置

rpm -ivh 是 Linux 中用于安装 RPM（Red Hat Package Manager）软件包的命令。若已安装，需要先做卸载MySQL的操作命令是：rpm -e --nodeps mariadb-libs。使用的命令是： mysqld --initialize --user=mysql。查看是否已安装MySQL。-v：表示显示详细（verbose）信息，提供更多安装过程中的输出信息。对应的命令是：mysql -uroot -p。-h：表示在安装过程中显示进度条，以 # 符号表示安装进度。

2025-05-14 10:11:24 225

原创 SparkSQL基本使用

【代码】SparkSQL基本使用。

2025-05-14 09:40:47 259

原创 RDD-自定义分区器案例

【代码】RDD-自定义分区器案例。

2025-05-14 09:13:29 377

原创 RDD-自定义分区器

【代码】RDD-自定义分区器。

2025-05-09 19:25:53 117

原创 RDD-分区和分区器

【代码】RDD-分区和分区器。

2025-05-09 19:25:03 102

原创 spark缓存-persist

MEMORY_ONLY_SER：将 RDD 以序列化的 Java 对象形式存储在内存中，相较于 MEMORY_ONLY，序列化后占用的内存空间更小，但读取时需要进行反序列化操作，会带来一定的性能开销。MEMORY_ONLY：将 RDD 以 Java 对象的形式存储在 JVM 的内存中。MEMORY_AND_DISK：优先把 RDD 以 Java 对象的形式存储在 JVM 的内存中。MEMORY_AND_DISK_SER：优先将 RDD 以序列化的 Java 对象形式存储在内存中，内存不足时存储到磁盘上。

2025-05-09 15:20:19 323

原创 spark缓存-cache

【代码】spark缓存-cache。

2025-05-09 15:01:51 104

原创分区器（2）

分区器（Partitioner）的作用是根据Map任务的输出键值对，将它们分配到不同的分区中，以便后续的Reducer任务可以处理这些分区。分区器（Partitioner）的作用是根据Map任务的输出键值对，将它们分配到不同的分区中，以便后续的Reducer任务可以处理这些分区。在某些情况下，我们可能需要根据业务逻辑自定义分区器。例如，我们可能希望将特定的键值对分配到特定的Reducer。实现接口：创建一个类，实现接口，并重写方法。配置分区器：在MapReduce作业中，通过Job类的。

2025-05-09 14:35:19 339

原创分区器（2）

在MapReduce框架中，Reducer的数量（即ReduceTask的数量）可以通过配置参数来设置。：在MapReduce作业的配置代码中，可以通过。

2025-05-07 21:21:53 360

原创分区器（1）

在分布式计算中，Map任务通常会产生大量的中间结果，这些结果需要被分配到不同的Reducer任务中进行进一步处理。分区器的作用是根据一定的规则将中间结果分配到不同的分区（Partition），从而确保数据能够被正确地分发到对应的Reducer任务中。：如何将数据均匀地分配到各个Reducer，避免某些Reducer负载过高。：根据业务需求，可能需要将特定的数据分配到特定的Reducer。：分区器的效率直接影响到整个分布式计算的性能。

2025-05-07 21:20:19 204

原创 hadoop中的序列化和反序列化（4）

java复制public PersonWritable() {} // 默认构造函数@Override@Override@Override序列化和反序列化：将对象转换为字节序列（序列化），以及将字节序列转换回对象（反序列化）。Java序列化：通过实现接口，使用和。Hadoop序列化：通过实现Writable接口，支持高效、紧凑的序列化格式，适合大规模数据处理。Hadoop序列化的优势：高效、可扩展、语言无关。

2025-05-07 21:15:51 552

原创 hadoop中的序列化和反序列化（3）

用于版本控制，如果类结构发生变化，需要更新版本号。序列化时会保存对象的字段值，但不会保存方法。Java提供了内置的序列化机制，通过。如果类中包含非序列化字段，可以使用。接口是一个标记接口，没有方法。

2025-05-07 21:15:02 359

原创 hadoop中的序列化和反序列化（2）

序列化在分布式系统中非常重要，尤其是在Hadoop这样的大数据处理框架中。：将对象转换为通用格式（如JSON、XML），便于不同语言和平台之间的交互。：在分布式计算中，通过序列化保存任务的状态，以便在失败时恢复。：将对象通过网络发送到其他节点。：将对象持久化到磁盘文件中。

2025-05-07 21:14:16 587

原创 hadoop中的序列化和反序列化（1）

序列化（Serialization）是将对象的状态信息转换为可以存储或传输的格式的过程。序列化后的对象可以保存到文件中，或者通过网络传输。反序列化（Deserialization）是序列化的逆过程，即将序列化后的数据重新转换为对象的过程。序列化：对象 → 字节序列（存储或传输）。反序列化：字节序列 → 对象。

2025-05-07 21:13:43 193

原创 yarn -tool接口

org.apache.hadoop.util.Tool 是 Apache Hadoop 框架里的一个接口，其用途是协助开发可通过命令行运行的 Hadoop 应用程序。ToolRunner 是 Hadoop 提供的一个实用类，可用于运行实现了 Tool 接口的应用程序。run(String[] args)：此方法为应用程序的主要执行逻辑，接收命令行参数，返回一个整数代表执行结果（通常 0 表示成功，非 0 表示失败）。2.run 方法会打印出接收到的命令行参数，你可以在此添加自己的业务逻辑。

2025-05-07 21:10:07 283

原创 yarn的概述

是Hadoop生态系统中的一个资源管理框架，用于管理和调度集群中的计算资源。它允许多个应用程序在同一个集群上高效地运行，同时确保资源的隔离和共享。核心目标提高集群资源的利用率。支持多种计算框架（如MapReduce、Spark、Flink等）。提供资源隔离和调度机制。YARN是一个资源管理框架，用于管理和调度集群中的计算资源。三大组件：全局资源管理。：节点资源管理。：应用程序管理。调度策略FIFO调度器：简单，适合单租户。容量调度器：支持多租户，资源划分。公平调度器：动态分配资源，适合多租户。

2025-05-07 21:05:25 628

原创安装并运行第一个Spark程序

安装并运行第一个Spark程序需要完成以下步骤：安装Java和Spark，配置环境变量，编写并运行Spark程序。

2025-05-07 20:49:52 574

原创 RDD的处理过程

创建RDD→转换操作（Transformation）→行动操作（Action）。

2025-05-07 20:38:47 328

原创如何创建RDD

等方法，可以从外部存储系统（如HDFS、本地文件系统、S3）加载数据创建RDD。方法，可以将本地数据转换为RDD。这种方式通常用于测试或开发阶段。通过将本地集合（如列表、数组）传递给。通过对已有的RDD进行转换操作（如。等），可以生成新的RDD。：适合处理大规模数据。：适合数据处理和分析。

2025-05-07 20:35:49 388

原创在shell中运行RDD程序

准备工作：启动hdfs集群，打开hadoop100:9870，在wcinput目录下上传一个包含很多个单词的文本文件。// 将元组的value按照key来分组，对所有的value执行聚合操作(相加)// 将单词转换为元组对象，key是单词，value是数字1。进入环境：spark-shell --master yarn。// 将单词进行切割，得到一个存储全部单词的RDD。写交互式代码：启动之后在spark-shell中写代码。// 收集RDD的数据并打印输出结果。// 读取文件，得到RDD。

2025-05-07 20:28:52 186

原创 RDD算子—基本介绍

**定义**：转换算子用于对RDD进行操作，生成一个新的RDD。- `reduceByKey(f)`：对键值对RDD按键分组，并对每个键的值应用归并函数`f`，返回一个新的RDD。RDD的算子主要分为两类：**转换算子（Transformation）** 和 **行动算子（Action）**。- `flatMap(f)`：对RDD中的每个元素应用函数`f`，并将结果展平，返回一个新的RDD。这些操作是惰性求值的。- `filter(f)`：根据布尔函数`f`过滤RDD中的元素，返回一个新的RDD。

2025-05-07 11:33:09 303

原创 RDD的基本介绍

如果原始RDD是["apple", "banana", "cherry"]，通过map（x.upper（））操作后，生成的新RDD就是["APPLE", "BANANA", "CHERRY"]。例如，对于一个包含少量数据的RDD，如["a", "b", "c"]，调用collect（）操作后，会返回["a", "b", "c"]。例如，RDD1是[1, 2, 3]，RDD2是[4, 5, 6]，通过union（）操作后，生成的新RDD是[1, 2, 3, 4, 5, 6]。转换操作是创建新的RDD的操作。

2025-05-07 08:48:51 904

原创 spark和Hadoop之间的对比和联系

Hadoop 是大数据领域的奠基性框架（2006 年诞生），而 Spark （2010 年开源）在 Hadoop 基础上优化了计算模型，可视为 Hadoop 生态的升级和补充，而非完全替代。两者均面向大规模数据处理场景，旨在解决数据存储、计算和分布式系统协调问题，适用于海量数据的离线处理、实时分析等场景。

2025-05-07 08:09:43 356

原创 Yarn基本介绍

ResourceManager(RM): YARN集群中的主角色，决定系统中所有应用程序之间资源分配的最终权限，即最终仲裁者。接收用户的作业提交，并通过NM分配，管理各个机器上的计算资源。了解集群中各个节点的资源使用情况，并根据调度策略（如公平调度或容量调度）将资源分配给不同的应用程序。YARN中的从角色，一台机器上一个，负责管理本机器上的计算资源。应用程序内的“老大”，负责程序内部各阶段的资源申请，监督程序的执行情况。YARN支持资源分区，允许创建不同的资源池，用于分配给不同类型的用户或应用程序。

2025-04-19 10:32:02 204

原创 mapreduce的工作原理

MapReduce可以分成Map和Reduce两部分理解。映射过程，把一组数据按照某种Map函数映射成新的数据。映射、变换、过滤的过程。一条数据进入map会被处理成多条数据，也就是1进N出。归纳过程，把若干组映射结果进行汇总并输出。分解、缩小、归纳的过程。一组数据进入reduce会被归纳为一组数据（或者多组数据），也就是一组进N出。3.mapreduce：我们将map过程和reduce过程连接起来，会发现会发现它是这样的（如下图）mapreduce输入数据集中间结果数据集最终结果数据集。

2025-03-31 19:51:19 261

原创 1. hadoop 集群的常用命令

16.离开hadoop的安全模式(系统处于只读状态,namenode不会处理任何块的复制和删除命令)13.从hdfs的一个路径拷贝hdfs的另一个路径。11.从本地文件系统中拷贝文件到hdfs路径去。15.追加一个文件到已经存在的文件末尾。22.统计一个指定目录下的文件节点数量。23.设置hdfs中文件的副本数量。7.以字符形式打印一个文件的内容。10.从hdfs剪切粘贴到本地。14.在hdfs目录中移动文件。9.从本地剪切粘贴到hdfs。2.获取hdfs中的文件。6.显示一个文件的末尾。

2025-03-31 19:43:34 444

原创 linux命令(1)

示例：把目录dirl复制得到dir2 cp -r dirl dir2。enter建可以一行一行翻，space键翻下一页，按b翻下一页。如果源文件和目标文件在同一目录下，就是重命名否则就是移动。创建一个空的文件：touch filel.txt。3.more-tail:查看文件结尾部分内容。4.more-n:用于显示行数，默认为10行。例：more/etc/sudo.conf。例：cat/etc/host.conf。格式：mv 源文件目标文件。格式：cp源文件目标文件。

2025-03-03 20:07:22 190

原创虚拟机ip配置

linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。（2）配置Windows本地虚拟网卡，让本机也可以访问虚拟机。具体设置为：进入虚拟机，修改对应的IP。（3）设置虚拟机的IP。

2025-03-03 20:06:13 111

原创 vi常见命令操作

命令模式：在这个模式下，所敲的按键编辑器都理解为命令，以命令来驱动执行不同的功能。当我们通过vi命令第一次打开文件的时候，进入的就是命令模式。1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：new file。提示：在命令模式下按下shift+ zz，可以实现快速保存退出。vi编辑器有三种工作模式，分别是：命令模式，编辑模式，底线模式。2.如果文件已经存在，此时就打开这个文件，进入命令模式。从命令模式切换到底线命令模式，输入：进入底线命令模式。4.按下G键（大写g）可以跳到文件的最后一行。

2025-03-03 20:04:01 140

原创 Linux命令（2）

ls命令可以查看文件夹下的文件信息，如果某个文件夹下的文件特别多，使用ls命令时，就只能显示后面一部分文件信息，那如果我们希望查看全部的文件信息，就需要用到管道运算符。我们要去下载安装新的软件时就需要用到它：下载下来的软件大多都是.tar格式，而安装的过程就是解压缩。把1.txt,2.txt,3.txt 压缩到 test.tar 文件（会被自动创建）中。如果这个文件不存在，就会顺手创建这个文件。ls用来显示文件夹下的文件信息，more用来翻页，而 | 就可以把前一个的结果作为输入传递给 more。

2025-02-28 07:31:23 437

空空如也

空空如也