.Rw-优快云博客

原创 ssh命令

eg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。2.在hadoop100中，把自己的公钥传递给hadoop101,hadoop102。hadoop101 无密登录 hadoop100,hadoop102 与(1)类似。hadoop102 无密登录 hadoop100,hadoop101 与(1)类似。eg：从hadoop100进入hadoop101的命令就是。ssh-keygen -t rsa 三次回车。ssh命令无需密码也可登录。

2025-05-18 23:02:21 145

原创集群文件同步

在一台机器上模拟出 Hadoop 分布式系统的各个组件，各个组件在逻辑上是分离的，但是都运行在同一台物理机器上，以此来模拟分布式环境。在linux本地，测试偶尔用一下。我们上一节课使用的就是本地运行模式hadoop100。数据存储在HDFS，多台服务器工作，企业中大量使用。一.hadoop的运行模式。

2025-05-18 23:01:22 118

原创 hdfs概述

其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。数据自动保存多个副本（可以灵活指定副本个数），它通过增加副本的形式，提高容错性。一个副本丢失之后，它可以自动恢复。，并测试了它们的基本使用方式，下面几节课，我们来系统学习一下hadoop的三个组成之一：hdfs的相关内容。（一）HDFS的产生背景及定义。（二）HDFS优缺点。

2025-05-18 23:00:50 126

原创 spark基础

Hadoop是一个分布式系统基础架构。Spark是一种基于内存的快速、通用、可拓展的。

2025-05-18 23:00:11 101

原创编写程序实现

- 添加必要的插件以打包scala程序-->修改pom.xml文件。五）打包在集群上运行。

2025-05-18 22:58:58 60

原创常用命令1

• `hdfs dfs -ls /`：列出根目录下的文件和目录。如果要查看其他目录的内容，可以将`/`替换为对应的目录路径。例如，`hdfs dfs -ls /user。一、HDFS（Hadoop Distributed File System）相关命令。Hadoop 是一个分布式存储和计算平台，其集群操作涉及多个组件（如 HDFS、

2025-05-18 22:57:26 127

原创 finalshall

ping hadoop100或者是ping 192.168.10.100都应该可以通。时，都是通过ip地址来连接的，不方便。我们可以通过hostname的方式来访问。5. 找到刚才建立的连接，点击连接。主机：192.168.10.100，或者是配置hosts之后的主机名。1. 点击开始安装，安装到D盘。安装目录没有中文，没有空格。2. 启动finalshell，新建。这个文件是一个没有后缀名的文本文件。2. 使用ping 命令来检查。1. 修改hosts文件。我们在从本机开始去连接。来，我们一起操作一下。

2025-05-18 22:56:04 682

原创 rdd程序

在hdfs中/wcinput中创建一个文件：word2.txt在里面写几个单词。按住ctrl+D退出。

2025-05-18 22:53:43 217

原创配置历史服务

进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf，再补充两个设置。的hdfs服务（start-dfs.sh）,并在根目录创建目录directory。（注：4、5两步在上一条博客中直接一起配置了，所以这里可自行跳过）命令是 ./start-history-server.sh。四、修改spark-env.sh文件。命令是 ./start-all.sh。六、重启spark集群。

2025-05-18 22:52:27 147

原创 yarn.

配置 Hadoop 的核心配置文件，如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml，设置相关参数，如文件系统路径、资源分配等。启动 Hadoop 集群，包括 NameNode、DataNode、ResourceManager 和 NodeManager 等服务。规划好集群中节点的角色，如 Master 节点、Worker 节点等，并确保各节点之间网络畅通，能相互访问。下载 Spark 安装包，解压到集群各节点的指定目录。

2025-05-18 22:31:29 211

原创 toooo2

/ 它要做7件事 hadoop jar mc8.js com.example.mapreduce.WordCountDriver /要处理的文件夹 /结果路径。// 6. 设置输入路径（D:\vm\wcinput）和输出路径（D:\vm\output01）（4）重新打包生成jar，假设名称为MapReduceDemo1-1.0-SNAPSHOT.jar。// 5. 设置Reduce的键值对泛型。// 4. 设置Map的键值对泛型。// 2. 关联本地的jar包。// 连接到hadoop集群。

2025-05-18 22:28:29 356

原创配置Hadoop集群环境-使用脚本命令实现集群文件同步

在一台机器上模拟出 Hadoop 分布式系统的各个组件，各个组件在逻辑上是分离的，但是都运行在同一台物理机器上，以此来模拟分布式环境。任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。如果当前在A机器上，要把A机器上的/etc/tst下的所有内容拷贝到B机器上的/etc/tst目录下，应该的命令应该怎么写？在hadoop101上操作，将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。

2025-05-13 15:37:57 855

原创 12配置Hadoop集群-集群配置

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。刚才我们是在hadoop100这台机器上进行了正确的设置，但是，其他的2台机器也要做相同的配置。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。接下来配置第二个文件，/opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml。

2025-05-13 15:36:20 557

原创 ssh命令

eg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。2.在hadoop100中，把自己的公钥传递给hadoop101,hadoop102。1.在hadoop100中生成公钥和密码。hadoop101 无密登录 hadoop100,hadoop102 与(1)类似。hadoop102 无密登录 hadoop100,hadoop101 与(1)类似。eg：从hadoop100进入hadoop101的命令就是。退出命令就是：exit。

2025-05-13 15:35:36 135

原创配置并克隆虚拟机

原文链接：https://blog.youkuaiyun.com/2401_87373448/article/details/147892395。配置服务器IP地址用来通信，我们要把多台虚拟机设置为一个集群来工作，就必须给他们配置相同网段的IP地址。重启的命令是reboot，检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。

2025-05-13 15:35:00 192

原创安装vm和centOS

1. 下载 VMware Workstation Pro 访问 VMware 官方网站（https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html ），根据自己的操作系统版本下载对应的 VMware Workstation Pro 安装程序。- 在安装信息摘要界面，设置“安装位置”、“软件选择”等选项： - 点击“安装位置”，选择自动分区或手动分区，然后点击“完成”。- 安装完成后，点击“完成”。

2025-05-13 15:34:23 379

原创 vi的基本使用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：new file。vi编辑器有三种工作模式，分别为：命令模式，输入模式，底线模式。提示：在命令模式下按shift + zz，可实现快速保存退出。由于没有鼠标，我们的操作都是用键盘来控制光标的。2.如果文件已存在，此时就打开这个文件，进入命令模式。底线命令模式：以：开始，通常用于文件的保存和退出。是Linux的内置命令，以命令的方式来运行。

2025-05-13 15:33:47 141

原创 Linux的操作系统命令

当前路径：也叫做当前工作目录是当下用户所处的位置。~波浪线，当前用户的home目录，比如root用户home目录是/root。rm -rf ./bbb 将目录及以下所有递归逐一删除，无需用户确认。相对路径：当前相对当前工作目录开始的路径，会随着当前路径变化而变化。绝对路径：不管工作目录在哪绝对路径都是从/根目录开始，唯一不重复。mkdir -p：创建目录，如果父级目录不存在，就建立一个新目录。ll -a 命令，显示当前的目录下的文件，包括隐藏文件。ll 命令，用来显示当前的目录下的文件。

2025-05-13 15:33:08 140

原创 spark

慢因为她的计算结果保存在磁盘处理在。大数据时代-分布式处理。

2025-05-13 15:32:33 317

原创如何在idea中写spark程序

(1)访问Scala官方网站（https://www.scala-lang.org/download/）下载适合操作系统的Scala安装包。安装Scala的操作，也是一路默认安装即可。(2) 打开命令提示符（CMD），输入以下命令：scala -version 如果显示Scala 的版本信息，说明安装成功。Spark是基于scala的，当然它也可以支持java和scala还有python语言，我们这里会使用scala。它的功能是wordcount的功能：从指定的文件夹中去读取文件，并做词频统计。

2025-05-13 15:31:44 276

原创在Idea中编写Spark程序并运行

复制之前的文件，重命名为WordCount_online，并修改两个地方：输入目录改成args(0), 输出的目录改成args(1)。原文链接：https://blog.youkuaiyun.com/2401_87373448/article/details/147922987。我们学习了如何在Idea中编写程序的基本流程，并写了一个wordcount程序，可以对比它和mapreduce的使用方式区别。// 写一个spark程序，统计input目录下所有文本文件中单词的词频。// 读取目录下的所有文本文件。

2025-05-13 15:30:40 355

原创数据清洗3

即使你的MapReduce的输入输出文件都是未压缩的文件，你仍然可以对Map任务的中间结果输出做压缩，因为它要写在硬盘并且通过网络传输到Reduce节点，对其压缩可以提高很多性能，这些工作只要设置两个属性即可，我们来看下代码怎么设置。原文链接：https://blog.youkuaiyun.com/2401_87373448/article/details/147923095。基于WordCount案例，只需要在dirvier类的代码中，去设置在reduce端输出压缩开启，并设置压缩的方式即可。// 设置压缩的方式。

2025-05-13 15:25:37 374

原创数据压缩2

hadoop自动检查文件拓展名，如果拓展名能够匹配，就会用恰当的编解码方式对文件进行压缩和解压。如果数据量小于块大小(128M)，则不需要考虑切点问题，重点考虑压缩和解压缩速度比较快的LZO/Snappy。如果需要切片，重点考虑支持切片的Bzip2和LZO。为了减少MapTask和ReduceTask之间的网络IO，重点考虑压缩和解压缩快的LZO,Snappy。压缩方式选择时重点考虑：压缩/解压缩速度、压缩率（压缩后存储大小）、压缩后是否可以支持切片。优点：压缩/解压速度比较快；缺点：压缩/解压速度慢。

2025-05-13 15:22:27 147

原创数据压缩1

就好比有一堆杂乱的积木，压缩算法呢，就像是把这些积木按照一定规则整理起来，装进一个小盒子里，这样占用的空间就变小了，这个过程就是压缩。不同的压缩算法整理积木的方式不一样，有的整理得更紧凑但花时间，有的速度快但可能没那么紧凑哦。有损压缩则会在一定程度上牺牲数据的精度来换取更高的压缩比，适用于对数据质量损失有一定容忍度的场景，如图像、音频、视频等多媒体数据。数据压缩是指在不丢失或尽可能少丢失数据信息的前提下，通过特定的算法和技术，对原始数据进行重新编码和处理，以减少数据存储空间或传输带宽的过程。

2025-05-13 15:18:51 180

原创 Yarn-tool接口2

/ 它要做7件事 hadoop jar mc8.js com.example.mapreduce.WordCountDriver /要处理的文件夹 /结果路径。原文链接：https://blog.youkuaiyun.com/2401_87373448/article/details/147923223。// 6. 设置输入路径（D:\vm\wcinput）和输出路径（D:\vm\output01）// 5. 设置Reduce的键值对泛型。// 4. 设置Map的键值对泛型。// 2. 关联本地的jar包。

2025-05-13 15:17:48 312

原创 Yarn-tool接口

org.apache.hadoop.util.Tool 是 Apache Hadoop 框架里的一个接口，其用途是协助开发可通过命令行运行的 Hadoop 应用程序。run(String[] args)：此方法为应用程序的主要执行逻辑，接收命令行参数，返回一个整数代表执行结果（通常 0 表示成功，非 0 表示失败）。原文链接：https://blog.youkuaiyun.com/2401_87373448/article/details/147923169。// 使用 ToolRunner 运行应用程序。

2025-05-13 15:16:41 380

原创 yarn集群

压缩包在/opt/modules 将spark解压到/opt/installs。#因为YARN中运行Spark，需要用到Spark的一些类和方法。#如果不上传到HDFS，每次运行YARN都要上传一次，比较慢。## 22行左右设置JAVA安装目录、HADOOP和YARN配置文件。#所以自己手动上传一次，以后每次YARN直接读取即可。将解压后的文件重命名，并对设置一个软连接。修改spark-env.sh配置文件。修改级别为WARN,打印日志少一点。## 历史日志服务器。

2025-05-12 23:49:41 225

原创虚拟机配置

配置服务器IP地址用来通信，我们要把多台虚拟机设置为一个集群来工作，就必须给他们配置相同网段的IP地址。重启的命令是reboot，检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。Step3: 设置虚拟机hadoop100的IP。(3)最后，关闭服务器的防火墙。具体设置为：进入虚拟机，修改对应的IP。

2025-05-12 23:44:57 183

原创 Hadoop区别

HDFS用于存储大规模数据，它将文件分割成多个数据块（block），并将这些数据块存储在多个节点上，以实现数据的高可靠性和高吞吐量访问。它将任务分解为Map（映射）和Reduce（归并）两个阶段，Map任务负责处理输入的键值对并生成中间结果，Reduce任务对中间结果进行归并操作，最终得到最终结果。• 高可靠性：通过在多个节点上存储数据块的副本（默认是3个副本），即使部分节点出现故障，数据也不会丢失。例如，当一个存储数据块的节点发生故障时，系统可以从其他存储该数据块副本的节点读取数据。

2025-05-12 23:43:07 331

原创 spark和hadoop的区别与联系

例如，Spark 可以与 Hive 集成，利用 Hive 的元数据管理和 SQL 查询功能，结合 Spark 的计算能力，实现更高效的数据查询和分析。它提供了丰富的 API，如 Spark Core、Spark SQL、Spark Streaming 等，能方便地进行各种数据处理任务，包括批处理、交互式查询、流计算等。开发者可以使用这些 API 以更直观的方式进行数据处理，例如使用 RDD（弹性分布式数据集）的各种操作，如 map、filter、reduceByKey 等，代码更加简洁易懂，开发效率更高。

2025-05-12 10:58:48 362

空空如也

空空如也