- 博客(73)
- 收藏
- 关注
原创 MySQL数据配置
rpm -ivh 是 Linux 中用于安装 RPM(Red Hat Package Manager)软件包的命令。若已安装,需要先做卸载MySQL的操作命令是:rpm -e --nodeps mariadb-libs。使用的命令是: mysqld --initialize --user=mysql。查看是否已安装MySQL。-v:表示显示详细(verbose)信息,提供更多安装过程中的输出信息。对应的命令是:mysql -uroot -p。-h:表示在安装过程中显示进度条,以 # 符号表示安装进度。
2025-05-14 10:11:24
225
原创 spark缓存-persist
MEMORY_ONLY_SER:将 RDD 以序列化的 Java 对象形式存储在内存中,相较于 MEMORY_ONLY,序列化后占用的内存空间更小,但读取时需要进行反序列化操作,会带来一定的性能开销。MEMORY_ONLY:将 RDD 以 Java 对象的形式存储在 JVM 的内存中。MEMORY_AND_DISK:优先把 RDD 以 Java 对象的形式存储在 JVM 的内存中。MEMORY_AND_DISK_SER:优先将 RDD 以序列化的 Java 对象形式存储在内存中,内存不足时存储到磁盘上。
2025-05-09 15:20:19
323
原创 分区器(2)
分区器(Partitioner)的作用是根据Map任务的输出键值对,将它们分配到不同的分区中,以便后续的Reducer任务可以处理这些分区。分区器(Partitioner)的作用是根据Map任务的输出键值对,将它们分配到不同的分区中,以便后续的Reducer任务可以处理这些分区。在某些情况下,我们可能需要根据业务逻辑自定义分区器。例如,我们可能希望将特定的键值对分配到特定的Reducer。实现接口: 创建一个类,实现接口,并重写方法。配置分区器: 在MapReduce作业中,通过Job类的。
2025-05-09 14:35:19
339
原创 分区器(2)
在MapReduce框架中,Reducer的数量(即ReduceTask的数量)可以通过配置参数来设置。: 在MapReduce作业的配置代码中,可以通过。
2025-05-07 21:21:53
360
原创 分区器(1)
在分布式计算中,Map任务通常会产生大量的中间结果,这些结果需要被分配到不同的Reducer任务中进行进一步处理。分区器的作用是根据一定的规则将中间结果分配到不同的分区(Partition),从而确保数据能够被正确地分发到对应的Reducer任务中。:如何将数据均匀地分配到各个Reducer,避免某些Reducer负载过高。:根据业务需求,可能需要将特定的数据分配到特定的Reducer。:分区器的效率直接影响到整个分布式计算的性能。
2025-05-07 21:20:19
204
原创 hadoop中的序列化和反序列化(4)
java复制public PersonWritable() {} // 默认构造函数@Override@Override@Override序列化和反序列化:将对象转换为字节序列(序列化),以及将字节序列转换回对象(反序列化)。Java序列化:通过实现接口,使用和。Hadoop序列化:通过实现Writable接口,支持高效、紧凑的序列化格式,适合大规模数据处理。Hadoop序列化的优势:高效、可扩展、语言无关。
2025-05-07 21:15:51
552
原创 hadoop中的序列化和反序列化(3)
用于版本控制,如果类结构发生变化,需要更新版本号。序列化时会保存对象的字段值,但不会保存方法。Java提供了内置的序列化机制,通过。如果类中包含非序列化字段,可以使用。接口是一个标记接口,没有方法。
2025-05-07 21:15:02
359
原创 hadoop中的序列化和反序列化(2)
序列化在分布式系统中非常重要,尤其是在Hadoop这样的大数据处理框架中。:将对象转换为通用格式(如JSON、XML),便于不同语言和平台之间的交互。:在分布式计算中,通过序列化保存任务的状态,以便在失败时恢复。:将对象通过网络发送到其他节点。:将对象持久化到磁盘文件中。
2025-05-07 21:14:16
587
原创 hadoop中的序列化和反序列化(1)
序列化(Serialization)是将对象的状态信息转换为可以存储或传输的格式的过程。序列化后的对象可以保存到文件中,或者通过网络传输。反序列化(Deserialization)是序列化的逆过程,即将序列化后的数据重新转换为对象的过程。序列化:对象 → 字节序列(存储或传输)。反序列化:字节序列 → 对象。
2025-05-07 21:13:43
193
原创 yarn -tool接口
org.apache.hadoop.util.Tool 是 Apache Hadoop 框架里的一个接口,其用途是协助开发可通过命令行运行的 Hadoop 应用程序。ToolRunner 是 Hadoop 提供的一个实用类,可用于运行实现了 Tool 接口的应用程序。run(String[] args):此方法为应用程序的主要执行逻辑,接收命令行参数,返回一个整数代表执行结果(通常 0 表示成功,非 0 表示失败)。2.run 方法会打印出接收到的命令行参数,你可以在此添加自己的业务逻辑。
2025-05-07 21:10:07
283
原创 yarn的概述
是Hadoop生态系统中的一个资源管理框架,用于管理和调度集群中的计算资源。它允许多个应用程序在同一个集群上高效地运行,同时确保资源的隔离和共享。核心目标提高集群资源的利用率。支持多种计算框架(如MapReduce、Spark、Flink等)。提供资源隔离和调度机制。YARN是一个资源管理框架,用于管理和调度集群中的计算资源。三大组件:全局资源管理。:节点资源管理。:应用程序管理。调度策略FIFO调度器:简单,适合单租户。容量调度器:支持多租户,资源划分。公平调度器:动态分配资源,适合多租户。
2025-05-07 21:05:25
628
原创 安装并运行第一个Spark程序
安装并运行第一个Spark程序需要完成以下步骤:安装Java和Spark,配置环境变量,编写并运行Spark程序。
2025-05-07 20:49:52
574
原创 如何创建RDD
等方法,可以从外部存储系统(如HDFS、本地文件系统、S3)加载数据创建RDD。方法,可以将本地数据转换为RDD。这种方式通常用于测试或开发阶段。通过将本地集合(如列表、数组)传递给。通过对已有的RDD进行转换操作(如。等),可以生成新的RDD。:适合处理大规模数据。:适合数据处理和分析。
2025-05-07 20:35:49
388
原创 在shell中运行RDD程序
准备工作:启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)// 将单词转换为元组对象,key是单词,value是数字1。进入环境:spark-shell --master yarn。// 将单词进行切割,得到一个存储全部单词的RDD。写交互式代码:启动之后在spark-shell中写代码。// 收集RDD的数据并打印输出结果。// 读取文件,得到RDD。
2025-05-07 20:28:52
186
原创 RDD算子—基本介绍
**定义**:转换算子用于对RDD进行操作,生成一个新的RDD。- `reduceByKey(f)`:对键值对RDD按键分组,并对每个键的值应用归并函数`f`,返回一个新的RDD。RDD的算子主要分为两类:**转换算子(Transformation)** 和 **行动算子(Action)**。- `flatMap(f)`:对RDD中的每个元素应用函数`f`,并将结果展平,返回一个新的RDD。这些操作是惰性求值的。- `filter(f)`:根据布尔函数`f`过滤RDD中的元素,返回一个新的RDD。
2025-05-07 11:33:09
303
原创 RDD的基本介绍
如果原始RDD是["apple", "banana", "cherry"],通过map(x.upper())操作后,生成的新RDD就是["APPLE", "BANANA", "CHERRY"]。例如,对于一个包含少量数据的RDD,如["a", "b", "c"],调用collect()操作后,会返回["a", "b", "c"]。例如,RDD1是[1, 2, 3],RDD2是[4, 5, 6],通过union()操作后,生成的新RDD是[1, 2, 3, 4, 5, 6]。转换操作是创建新的RDD的操作。
2025-05-07 08:48:51
904
原创 spark和Hadoop之间的对比和联系
Hadoop 是大数据领域的奠基性框架(2006 年诞生),而 Spark (2010 年开源)在 Hadoop 基础上优化了计算模型,可视为 Hadoop 生态的升级和补充,而非完全替代。两者均面向大规模数据处理场景,旨在解决数据存储、计算和分布式系统协调问题,适用于海量数据的离线处理、实时分析等场景。
2025-05-07 08:09:43
356
原创 Yarn基本介绍
ResourceManager(RM): YARN集群中的主角色,决定系统中所有应用程序之间资源分配的最终权限,即最终仲裁者。接收用户的作业提交,并通过NM分配,管理各个机器上的计算资源。了解集群中各个节点的资源使用情况,并根据调度策略(如公平调度或容量调度)将资源分配给不同的应用程序。YARN中的从角色,一台机器上一个,负责管理本机器上的计算资源。应用程序内的“老大”,负责程序内部各阶段的资源申请,监督程序的执行情况。YARN支持资源分区,允许创建不同的资源池,用于分配给不同类型的用户或应用程序。
2025-04-19 10:32:02
204
原创 mapreduce的工作原理
MapReduce可以分成Map和Reduce两部分理解。映射过程,把一组数据按照某种Map函数映射成新的数据。映射、变换、过滤的过程。一条数据进入map会被处理成多条数据,也就是1进N出。归纳过程,把若干组映射结果进行汇总并输出。分解、缩小、归纳的过程。一组数据进入reduce会被归纳为一组数据(或者多组数据),也就是一组进N出。3.mapreduce:我们将map过程和reduce过程连接起来,会发现会发现它是这样的(如下图)mapreduce输入数据集中间结果数据集最终结果数据集。
2025-03-31 19:51:19
261
原创 1. hadoop 集群的常用命令
16.离开hadoop的 安全模式(系统处于只读状态,namenode不会处理任何块的复制和删除命令)13.从hdfs的一个路径拷贝hdfs的另一个路径。11.从本地文件系统中拷贝文件到hdfs路径去。15.追加一个文件到已经存在的文件末尾。22.统计一个指定目录下的文件节点数量。23.设置hdfs中文件的副本数量。7.以字符形式打印一个文件的内容。10.从hdfs剪切粘贴到本地。14.在hdfs目录中移动文件。9.从本地剪切粘贴到hdfs。2.获取hdfs中的文件。6.显示一个文件的末尾。
2025-03-31 19:43:34
444
原创 linux命令(1)
示例:把目录dirl复制得到dir2 cp -r dirl dir2。enter建可以一行一行翻,space键翻下一页,按b翻下一页。如果源文件和目标文件在同一目录下,就是重命名否则就是移动。创建一个空的文件:touch filel.txt。3.more-tail:查看文件结尾部分内容。4.more-n:用于显示行数,默认为10行。例:more/etc/sudo.conf。例:cat/etc/host.conf。格式:mv 源文件 目标文件。格式:cp源文件 目标文件。
2025-03-03 20:07:22
190
原创 虚拟机ip配置
linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。(2)配置Windows本地虚拟网卡,让本机也可以访问虚拟机。具体设置为:进入虚拟机,修改对应的IP。(3)设置虚拟机的IP。
2025-03-03 20:06:13
111
原创 vi常见命令操作
命令模式:在这个模式下,所敲的按键编辑器都理解为命令,以命令来驱动执行不同的功能。当我们通过vi命令第一次打开文件的时候,进入的就是命令模式。1.如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:new file。提示:在命令模式下按下shift+ zz,可以实现快速保存退出。vi编辑器有三种工作模式,分别是:命令模式,编辑模式,底线模式。2.如果文件已经存在,此时就打开这个文件,进入命令模式。从命令模式切换到底线命令模式,输入:进入底线命令模式。4.按下G键(大写g)可以跳到文件的最后一行。
2025-03-03 20:04:01
140
原创 Linux命令(2)
ls命令可以查看文件夹下的文件信息,如果某个文件夹下的文件特别多,使用ls命令时,就只能显示后面一部分文件信息,那如果我们希望查看全部的文件信息,就需要用到管道运算符。我们要去下载安装新的软件时就需要用到它:下载下来的软件大多都是.tar格式,而安装的过程就是解压缩。把1.txt,2.txt,3.txt 压缩到 test.tar 文件(会被自动创建)中。如果这个文件不存在,就会顺手创建这个文件。ls用来显示文件夹下的文件信息,more用来翻页,而 | 就可以把前一个的结果作为输入传递给 more。
2025-02-28 07:31:23
437
原创 大数据的特点
如rm file.txt.他会给出一个提示,让用户确认(输入yes)之后再删除。3.cd命令,用来进入指定的目录 cd etc====用鼠标双击etc这个文件夹。3.mkdir-p命令:创建目录,如果父级目录不存在,就建立一个父级目录。mkdir-p aaa/bbb确保父目录名称存在,不存在就建立一个。单机时代,大数据时代—分布式处理(磁盘),实时大数据时代(内存)大量,高速,多样(结构化数据和非结构化数据),低价值密度,2.ll-a命令,显示当前目录下的文件,包括隐藏文件。
2025-02-26 09:32:32
193
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人