计算机人哪有不疯的-优快云博客

原创 Spark集群搭建-Standalone

先把名称改成spark-default.conf，再补充两个设置。进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下，mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意，这里不要省略./,它表示的是当前目录下的start-all命令，如果省略了./，它就会先去环境变量PATH中指定的目录来找这个命令。

2025-05-13 15:36:40 498 1

原创 Spark基础介绍

在 Hadoop MapReduce 时代，数据处理主要基于磁盘，每次计算都需要频繁读写磁盘，这在面对需要多次迭代的算法，如机器学习中的梯度下降算法时，效率极其低下，导致大规模数据的迭代分析可能耗费数小时之久。而 Spark 创新性地采用基于内存计算的模式，使得数据在内存中能够被快速访问与处理，极大地缩短了计算时间，让大规模数据的迭代分析能够在秒级或分钟级完成，从而大幅提升了数据处理的效率，满足了诸如实时性要求较高的交互式数据处理等场景需求。实时计算：spark是基于MR的，而MR是离线的。

2025-05-13 15:04:05 1265 1

原创 spark数据压缩

即使你的MapReduce的输入输出文件都是未压缩的文件，你仍然可以对Map任务的中间结果输出做压缩，因为它要写在硬盘并且通过网络传输到Reduce节点，对其压缩可以提高很多性能，这些工作只要设置两个属性即可，我们来看下代码怎么设置。mapreduce.map.output.compress.codec（在mapred-site.xml中配置）压缩方式选择时重点考虑：压缩/解压缩速度、压缩率（压缩后存储大小）、压缩后是否可以支持切片。提供的Hadoop源码支持的压缩格式有：BZip2Codec。

2025-05-13 15:01:05 829

原创 spark数据清洗

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（oad）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。MapReduce程序之前，往往要先对数据进行清洗，清理。xtract）、转换（Transform）、加载（运行Mapper程序，不需要运行Reduce程序。需要在Map阶段对输入的数据根据规则进行过滤清洗。（1）编写WebLogMapper类。（2）编写WebLogDriver类。

2025-05-13 14:52:09 262

原创序列化运行环境的搭建，CentOS的基本使用

而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造。），一个对象被序列化后，会附带很多额外的信息（各种校验信息，，继承体系等），不便于在网络中高效传输。

2025-05-13 14:50:06 595

原创 Mapreduce初使用

机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由。3. Driver阶段相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象。有一本英语书，我们要对英语单词进行分拣：统计以a-p，或者q-z开头的单词，单独把他们放在两个不同的文件中。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

2025-05-13 14:44:40 798

原创【HDFS的API操作】（九）HDFS文件和文件夹判断

【代码】【HDFS的API操作】（九）HDFS文件和文件夹判断。

2025-05-13 14:38:49 106

原创【HDFS的API操作】（八）HDFS文件详情查看

查看文件名称、权限、长度、块信息。

2025-05-12 11:26:01 139

原创【HDFS的API操作】（七）HDFS删除文件和目录

【代码】【HDFS的API操作】（七）HDFS删除文件和目录。

2025-05-12 11:24:04 169

原创【HDFS的API操作】（六）HDFS文件更名和移动

文件更名和文件移动本质是一样的：更新了这个文件的访问路径。这两个操作的的API都是rename。

2025-05-12 11:23:10 200

原创【HDFS的API操作】（五）HDFS文件下载

接下来，我们看如何去下载文件。这个过程需要调用copyToLocalFile这个API。注意：如果执行上面代码，下载不了文件，有可能是你电脑的微软支持的运行库少，需要安装一下微软运行库。

2025-05-12 11:16:31 206

原创【HDFS的API操作】（四）动态设置副本份数（参数优先级)

默认情况下，上传的文件会被保存3份，如果需要的话，我们可以随时去修改这个设置参数。2）将hdfs-site.xml拷贝到项目的resources资源目录下。客户端代码中设置的值。）服务器的默认配置（

2025-05-12 11:11:38 179

原创【HDFS的API操作】（三）HDFS文件上传

【代码】【HDFS的API操作】（三）HDFS文件上传。

2025-05-12 11:10:36 144

原创【HDFS的API操作】二创建Maven项目

这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。如果程序执行没有错误，就会在HDFS中创建对应的文件目录，大家可以去服务器端查看。默认用户访问HDFS，会报权限异常错误。所以在访问HDFS时，一定要配置用户。在项目的src/main/resources目录下，新建一个文件，命名为“我们创建一个包为example.org,并在下面。下，HDFS客户端API会从。，是有一个用户身份的。创建HdfsClient。在IDEA中创建一个。3. 配置日志信息。

2025-05-12 11:09:08 197

原创【HDFS的API操作】（一）客户端环境准备

说明缺少微软运行库（正版系统往往有这个问题）。再资料包里面有对应的微软运行库安装包双击安装即可。要分成两步：下载hadoop包、配置环境变量。找到资料包路径下的Windows依赖文件夹，拷贝。注意：如果环境变量不起作用，可以重启电脑试试。adoop-3.1.0到非中文路径（比如d。验证Hadoop环境变量是否正常。

2025-05-12 11:07:38 236

原创 shell命令大全

1）启动Hadoop集群（方便后续的测试）通过 fs命令可以直接看到所有的命令。我们要启动集群，然后才能开始操作它。hadoop fs 具体命令。）-help：输出这个命令参数。）创建/sanguo文件夹。

2025-05-12 11:05:49 230

原创 HDFS概述

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。(1) 文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小是128M。

2025-05-12 11:04:10 722

原创配置ssh无密登录

2. 运行命令：ssh-keygen -t rsa，然后根据提示连续敲入三个回车。但在实际的代码层面它只有两个集群：一个是HDFS集群另一个是YARN集群，在root下有一个.ssh文件夹，它的下面有一个known_hosts文件，这个里面记录了哪些其他的主机通过ssh访问过当前的主机。这里的id_rsa就是私钥，id_rsa.pub就是公钥。这两个集群就是我们通常说的：逻辑上分离，物理上在一起（同床异梦，貌合神离）记录ssh访问过计算机的公钥（public key）两个集群都是标准的主从架构集群。

2025-05-12 11:01:14 355

原创配置Hadoop集群环境准备

假设你在三台虚拟机（hadoop102、hadoop103、hadoop104）都已经创建好的/opt/module,/opt/software两个目录，在hadoop102这台机器中已经安装了jdk和hadoop。现在需要把102上的jdk拷贝到103中。（b）在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。（c）在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

2025-05-12 08:42:35 1610 1

原创图文展示HDFS、YARN、MapReduce三者关系

MapReduce将计算过程分为两个阶段：Map和Reduce。（2）Reduce阶段对Map结果进行汇总。（1）Map阶段并行处理输入数据。

2025-05-12 08:30:27 354

原创 Hadoop的组成，HDFS架构，YARN架构概述

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。Yet Another Resource Negotiator，简称YARN，另一种资源协调者，是Hadoop的资源管理器。（4）Container: 容器，相当于一台独立的服务器，里面封装了任务运行时所需要的资源：如内存、cpu、磁盘、网络等等。Hadoop2.X时代，增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算。

2025-05-12 08:24:49 608

原创安装并运行第一个hadoop程序

6.-C /opt/module/：其中 -C 选项表示切换目录（change directory），后面跟着的 /opt/module/ 是指定解压后的文件存放的目标目录。这条命令的作用就是将 jdk-8u212-linux-x64.tar.gz 这个经过gzip压缩的 tar归档文件解压到 /opt/module/目录中，并在解压过程中显示详细信息。这是指定输出结果的路径。5. -f：指定要处理的归档文件名，后面跟着的 `jdk-8u212-linux-x64.tar.gz` 就是要解压的文件。

2025-05-12 08:23:00 1546

原创如何在idea中写spark程序

文件，添加 Spark 相关依赖。（根据你选择的编程语言）目录下创建一个新的类或对象。如果你需要将程序部署到 Spark 集群上运行，需要将项目打包成 JAR 文件。在 IntelliJ IDEA 中，可以通过 Maven 的。spark-word-count-javaJava 编写的 Spark 单词计数程序。生成的 JAR 文件通常位于。将生成的 JAR 文件上传到 Spark 集群，并使用。添加完依赖后，Maven 会自动下载所需的库文件。这样，程序就会在 Spark 集群上运行。

2025-05-06 15:58:30 380

原创如何搭建spark yarn模式集群的集群

【代码】如何搭建spark yarn模式集群的集群。

2025-05-06 15:56:33 616

原创从0开始配置spark-local模式

如果运行`spark-shell`时提示找不到 Java 命令，请检查`JAVA_HOME`环境变量是否正确配置，并确保`%JAVA_HOME%\bin`或`$JAVA_HOME/bin`已添加到`Path`环境变量中。如果运行`spark-shell`时提示找不到命令，请检查`SPARK_HOME`环境变量是否正确配置，并确保`%SPARK_HOME%\bin`或`$SPARK_HOME/bin`已添加到`Path`环境变量中。如果你使用的是 Scala，需要将代码打包为一个 JAR 文件。

2025-04-21 10:08:51 1101

原创 Spark和Hadoop的区别和联系

Spark：提供了更高级的抽象和丰富的 API，支持多种编程语言（Scala、Java、Python 等），易于开发和使用。Spark：支持多种计算模式，包括批处理、流处理、SQL 查询和机器学习等，适合多种场景，尤其是需要快速处理和分析的场景。Spark：可以与 YARN、Mesos 等资源管理器集成，也可以使用自带的独立资源管理器，具有更高的灵活性。数据以块的形式存储在多个节点上，具有高可靠性和容错能力。Spark：计算速度更快，因为它将数据存储在内存中，减少了磁盘 I/O 操作，适合实时和快速处理。

2025-04-21 08:29:30 565

空空如也

空空如也