自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(85)
  • 收藏
  • 关注

原创 Spark集群搭建-Standalone

先把名称改成spark-default.conf,再补充两个设置。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下,mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意,这里不要省略./,它表示的是当前目录下的start-all命令,如果省略了./,它就会先去环境变量PATH中指定的目录来找这个命令。

2025-05-13 15:36:40 498 1

原创 Spark基础介绍

在 Hadoop MapReduce 时代,数据处理主要基于磁盘,每次计算都需要频繁读写磁盘,这在面对需要多次迭代的算法,如机器学习中的梯度下降算法时,效率极其低下,导致大规模数据的迭代分析可能耗费数小时之久。而 Spark 创新性地采用基于内存计算的模式,使得数据在内存中能够被快速访问与处理,极大地缩短了计算时间,让大规模数据的迭代分析能够在秒级或分钟级完成,从而大幅提升了数据处理的效率,满足了诸如实时性要求较高的交互式数据处理等场景需求。实时计算:spark是基于MR的,而MR是离线的。

2025-05-13 15:04:05 1265 1

原创 spark数据压缩

即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要设置两个属性即可,我们来看下代码怎么设置。mapreduce.map.output.compress.codec(在mapred-site.xml中配置)压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。提供的Hadoop源码支持的压缩格式有:BZip2Codec。

2025-05-13 15:01:05 829

原创 spark数据清洗

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(oad)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。MapReduce程序之前,往往要先对数据进行清洗,清理。xtract)、转换(Transform)、加载(运行Mapper程序,不需要运行Reduce程序。需要在Map阶段对输入的数据根据规则进行过滤清洗。(1)编写WebLogMapper类。(2)编写WebLogDriver类。

2025-05-13 14:52:09 262

原创 序列化运行环境的搭建,CentOS的基本使用

而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造。),一个对象被序列化后,会附带很多额外的信息(各种校验信息,,继承体系等),不便于在网络中高效传输。

2025-05-13 14:50:06 595

原创 Mapreduce初使用

机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由。3. Driver阶段 相当于YARN集群的客户端,用于提交我们整个程序到YARN集群,提交的是封装了MapReduce程序相关运行参数的job对象。有一本英语书,我们要对英语单词进行分拣:统计以a-p,或者q-z开头的单词,单独把他们放在两个不同的文件中。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。

2025-05-13 14:44:40 798

原创 【HDFS的API操作】(九)HDFS文件和文件夹判断

【代码】【HDFS的API操作】(九)HDFS文件和文件夹判断。

2025-05-13 14:38:49 106

原创 【HDFS的API操作】(八)HDFS文件详情查看

查看文件名称、权限、长度、块信息。

2025-05-12 11:26:01 139

原创 【HDFS的API操作】(七)HDFS删除文件和目录

【代码】【HDFS的API操作】(七)HDFS删除文件和目录。

2025-05-12 11:24:04 169

原创 【HDFS的API操作】(六)HDFS文件更名和移动

文件更名和文件移动本质是一样的: 更新了这个文件的访问路径。这两个操作的的API都是rename。

2025-05-12 11:23:10 200

原创 【HDFS的API操作】(五)HDFS文件下载

接下来,我们看如何去下载文件。这个过程需要调用copyToLocalFile这个API。注意:如果执行上面代码,下载不了文件,有可能是你电脑的微软支持的运行库少,需要安装一下微软运行库。

2025-05-12 11:16:31 206

原创 【HDFS的API操作】(四)动态设置副本份数(参数优先级)

默认情况下,上传的文件会被保存3份,如果需要的话,我们可以随时去修改这个设置参数。2)将hdfs-site.xml拷贝到项目的resources资源目录下。客户端代码中设置的值。)服务器的默认配置(

2025-05-12 11:11:38 179

原创 【HDFS的API操作】(三)HDFS文件上传

【代码】【HDFS的API操作】(三)HDFS文件上传。

2025-05-12 11:10:36 144

原创 【HDFS的API操作】二创建Maven项目

这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。如果程序执行没有错误,就会在HDFS中创建对应的文件目录,大家可以去服务器端查看。默认用户访问HDFS,会报权限异常错误。所以在访问HDFS时,一定要配置用户。在项目的src/main/resources目录下,新建一个文件,命名为“我们创建一个包为example.org,并在下面。下,HDFS客户端API会从。,是有一个用户身份的。创建HdfsClient。在IDEA中创建一个。3. 配置日志信息。

2025-05-12 11:09:08 197

原创 【HDFS的API操作】(一)客户端环境准备

说明缺少微软运行库(正版系统往往有这个问题)。再资料包里面有对应的微软运行库安装包双击安装即可。要分成两步:下载hadoop包 、 配置环境变量。找到资料包路径下的Windows依赖文件夹,拷贝。注意:如果环境变量不起作用,可以重启电脑试试。adoop-3.1.0到非中文路径(比如d。验证Hadoop环境变量是否正常。

2025-05-12 11:07:38 236

原创 shell命令大全

1)启动Hadoop集群(方便后续的测试)通过 fs命令可以直接看到所有的命令。我们要启动集群,然后才能开始操作它。hadoop fs 具体命令。)-help:输出这个命令参数。)创建/sanguo文件夹。

2025-05-12 11:05:49 230

原创 HDFS概述

随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。(1) 文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小是128M。

2025-05-12 11:04:10 722

原创 配置ssh无密登录

2. 运行命令:ssh-keygen -t rsa,然后根据提示连续敲入三个回车。但在实际的代码层面它只有两个集群:一个是HDFS集群另一个是YARN集群,在root下有一个.ssh文件夹,它的下面有一个known_hosts文件,这个里面记录了哪些其他的主机通过ssh访问过当前的主机。这里的id_rsa就是私钥,id_rsa.pub就是公钥。这两个集群就是我们通常说的:逻辑上分离,物理上在一起(同床异梦,貌合神离)记录ssh访问过计算机的公钥(public key)两个集群都是标准的主从架构集群。

2025-05-12 11:01:14 355

原创 配置Hadoop集群环境准备

假设你在三台虚拟机(hadoop102、hadoop103、hadoop104)都已经创建好的/opt/module,/opt/software两个目录,在hadoop102这台机器中已经安装了jdk和hadoop。现在需要把102上的jdk拷贝到103中。(b)在hadoop103上,将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。(c)在hadoop103上操作,将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

2025-05-12 08:42:35 1610 1

原创 图文展示HDFS、YARN、MapReduce三者关系

MapReduce将计算过程分为两个阶段:Map和Reduce。(2)Reduce阶段对Map结果进行汇总。(1)Map阶段并行处理输入数据。

2025-05-12 08:30:27 354

原创 Hadoop的组成,HDFS架构,YARN架构概述

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。Yet Another Resource Negotiator,简称YARN,另一种资源协调者,是Hadoop的资源管理器。(4)Container: 容器,相当于一台独立的服务器,里面封装了任务运行时所需要的资源:如内存、cpu、磁盘、网络等等。Hadoop2.X时代,增加了Yarn,Yarn只负责资源的调度,MapReduce只负责运算。

2025-05-12 08:24:49 608

原创 安装并运行第一个hadoop程序

6.-C /opt/module/:其中 -C 选项表示切换目录(change directory),后面跟着的 /opt/module/ 是指定解压后的文件存放的目标目录。这条命令的作用就是将 jdk-8u212-linux-x64.tar.gz 这个经过gzip压缩的 tar归档文件解压到 /opt/module/目录中,并在解压过程中显示详细信息。这是指定输出结果的路径。5. -f:指定要处理的归档文件名,后面跟着的 `jdk-8u212-linux-x64.tar.gz` 就是要解压的文件。

2025-05-12 08:23:00 1546

原创 如何在idea中写spark程序

文件,添加 Spark 相关依赖。(根据你选择的编程语言)目录下创建一个新的类或对象。如果你需要将程序部署到 Spark 集群上运行,需要将项目打包成 JAR 文件。在 IntelliJ IDEA 中,可以通过 Maven 的。spark-word-count-javaJava 编写的 Spark 单词计数程序。生成的 JAR 文件通常位于。将生成的 JAR 文件上传到 Spark 集群,并使用。添加完依赖后,Maven 会自动下载所需的库文件。这样,程序就会在 Spark 集群上运行。

2025-05-06 15:58:30 380

原创 如何搭建spark yarn模式集群的集群

【代码】如何搭建spark yarn模式集群的集群。

2025-05-06 15:56:33 616

原创 从0开始配置spark-local模式

如果运行`spark-shell`时提示找不到 Java 命令,请检查`JAVA_HOME`环境变量是否正确配置,并确保`%JAVA_HOME%\bin`或`$JAVA_HOME/bin`已添加到`Path`环境变量中。如果运行`spark-shell`时提示找不到命令,请检查`SPARK_HOME`环境变量是否正确配置,并确保`%SPARK_HOME%\bin`或`$SPARK_HOME/bin`已添加到`Path`环境变量中。如果你使用的是 Scala,需要将代码打包为一个 JAR 文件。

2025-04-21 10:08:51 1101

原创 Spark和Hadoop的区别和联系

Spark:提供了更高级的抽象和丰富的 API,支持多种编程语言(Scala、Java、Python 等),易于开发和使用。Spark:支持多种计算模式,包括批处理、流处理、SQL 查询和机器学习等,适合多种场景,尤其是需要快速处理和分析的场景。Spark:可以与 YARN、Mesos 等资源管理器集成,也可以使用自带的独立资源管理器,具有更高的灵活性。数据以块的形式存储在多个节点上,具有高可靠性和容错能力。Spark:计算速度更快,因为它将数据存储在内存中,减少了磁盘 I/O 操作,适合实时和快速处理。

2025-04-21 08:29:30 565

原创 【虚拟机 IP 配置深度剖析】

• NAT 模式:这种模式下,虚拟机如同搭乘主机网络的便车,通过主机的网络连接到外部网络,共享主机的 IP 地址。正确配置虚拟机的 IP 地址,就如同为虚拟机铺设了一条畅通无阻的信息高速公路,能够确保虚拟机在网络中稳定运行,为后续的开发、测试、学习等工作提供坚实的网络基础,开启高效的虚拟机使用之旅。• 桥接模式:虚拟机仿佛与主机站在了同一起跑线,处于同一网络中,拥有自己独立的 IP 地址,如同网络中的一台真实设备,可被外网直接访问,方便进行远程连接等操作。3. 配置完成后,保存并退出文件。

2025-03-03 19:23:08 459

原创 【VMware 搭建 CentOS 虚拟机超详细指南】

建议优先选择 DVD 版本,它犹如一个装满宝藏的百宝箱,涵盖了更全面的软件包,为后续使用提供丰富资源。安装途中,你可以自由选择安装路径,还能根据自身需求自定义组件,让软件贴合你的使用习惯。记住,磁盘空间要足够充裕,就像为你的虚拟世界准备宽敞的房间,一般 20GB 左右能满足初始需求。6. 网络类型选择上,默认的 NAT 模式就像一个万能钥匙,适用于绝大多数场景,能满足虚拟机基本的网络通信需求。2. 在这里,你可以根据自己的语言习惯选择安装语言,无论是英语的国际范,还是中文的亲切熟悉,任你挑选。

2025-03-03 19:18:37 768

原创 vi的基本使用

○ 插入模式:在命令模式下按 i(在光标前插入)、a(在光标后追加)、o(在光标下一行插入新行)等键可以进入插入模式。○ 光标移动:使用 h(左移)、j(下移)、k(上移)、l(右移)键移动光标;○ 命令模式:打开 vi 编辑器时默认进入命令模式。在命令模式下,可以使用各种命令进行文件操作,如移动光标、删除、复制、粘贴等。○ 末行模式:在命令模式下按 : 键进入末行模式。末行模式用于执行一些特殊命令,如保存文件、退出编辑器、查找替换等。按 Esc 键可以退出插入模式,回到命令模式。

2025-02-25 08:48:03 434

原创 Limux快捷指令

chown -R newowner:newgroup dir1 递归更改 dir1 目录及其所有内容的所有者为 newowner,所属组为 newgroup。chmod 755 file1 将 file1 的权限设置为所有者可读、可写、可执行,组用户和其他用户可读、可执行;ls -a 显示所有文件和目录,包括隐藏文件(以点开头的文件)。tail -f file1 实时跟踪 file1 文件的末尾内容更新,常用于查看日志文件。○ cat:用于查看文件内容,通常用于查看较小的文件。

2025-02-25 08:46:33 521

原创 如何安装VMware虚拟机

启动虚拟机,选择“Test this media & install CentOS。-选择“Linux”作为客户机操作系统,版本选择“CentOS7”,点击“下一步”。-访问VMware官网,找到下载页面,选择适合您操作系统的版本进行下载。按照以上步骤,就可以成功安装VMware虚拟机和CentOS。一、安装VMware虚拟机。二、安装CentOS简化版。

2025-02-25 08:42:01 250

原创 users.txt

admin,123,管理员。fan,123,普通用户。

2024-12-30 08:34:38 162

原创 books.txt

9,你当像鸟飞往你的山,塔拉·韦斯特弗,true。3,埃隆·马斯克传,艾萨克森,false。5,杨改口述自传,杨苡、余斌,false。8,暮色将尽,戴安娜·阿西尔,true。7,知行合一王阳明,度阴山,true。1,人性的弱点,卡耐基,false。10,邓小平时代,傅高义,true。4,苏东坡传,林语堂,false。6,曾国藩传,张宏杰,false。2,理想国,柏拉图,false。

2024-12-30 08:33:42 268

原创 【dao】UserDAO

【代码】【dao】UserDAO。

2024-12-23 08:30:00 154

原创 【dao】BorrowRecordDAO

【代码】【dao】BorrowRecordDAO。

2024-12-23 08:00:00 192

原创 【dao】BookDAO

【代码】【dao】BookDAO。

2024-12-22 08:15:00 143

原创 【models】UserModel

【代码】【models】UserModel。

2024-12-22 08:00:00 135

原创 【models】BorrowRecordModel

【代码】【models】BorrowRecordModel。

2024-12-21 08:30:00 168

原创 【models】BookModel

【代码】【models】BookModel。

2024-12-21 08:00:00 126

原创 【service】UserService

【代码】【service】UserService。

2024-12-20 08:15:00 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除