自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 ssh命令

eg:目标:hadoop100通过ssh访问hadoop101,hadoop102时不需要密码,其他两台设备也类似。2.在hadoop100中,把自己的公钥传递给hadoop101,hadoop102。hadoop101 无密登录 hadoop100,hadoop102 与(1)类似。hadoop102 无密登录 hadoop100,hadoop101 与(1)类似。eg:从hadoop100进入hadoop101的命令就是。ssh-keygen -t rsa 三次回车。ssh命令无需密码也可登录。

2025-05-18 23:02:21 145

原创 集群文件同步

在一台机器上模拟出 Hadoop 分布式系统的各个组件,各个组件在逻辑上是分离的,但是都运行在同一台物理机器上,以此来模拟分布式环境。在linux本地,测试偶尔用一下。我们上一节课使用的就是本地运行模式hadoop100。数据存储在HDFS,多台服务器工作,企业中大量使用。一.hadoop的运行模式。

2025-05-18 23:01:22 118

原创 hdfs概述

其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。数据自动保存多个副本(可以灵活指定副本个数),它通过增加副本的形式,提高容错性。一个副本丢失之后,它可以自动恢复。,并测试了它们的基本使用方式,下面几节课,我们来系统学习一下hadoop的三个组成之一:hdfs的相关内容。(一)HDFS的产生背景及定义。(二)HDFS优缺点。

2025-05-18 23:00:50 126

原创 spark基础

Hadoop是一个分布式系统基础架构。Spark是一种基于内存的快速、通用、可拓展的。

2025-05-18 23:00:11 101

原创 编写程序实现

- 添加必要的插件以打包scala程序-->修改pom.xml文件。五)打包在集群上运行。

2025-05-18 22:58:58 60

原创 常用命令1

• `hdfs dfs -ls /`:列出根目录下的文件和目录。如果要查看其他目录的内容,可以将`/`替换为对应的目录路径。例如,`hdfs dfs -ls /user。一、HDFS(Hadoop Distributed File System)相关命令。Hadoop 是一个分布式存储和计算平台,其集群操作涉及多个组件(如 HDFS、

2025-05-18 22:57:26 127

原创 finalshall

ping hadoop100或者是ping 192.168.10.100都应该可以通。时,都是通过ip地址来连接的,不方便。我们可以通过hostname的方式来访问。5. 找到刚才建立的连接,点击连接。主机:192.168.10.100,或者是配置hosts之后的主机名。1. 点击开始安装,安装到D盘。安装目录没有中文,没有空格。2. 启动finalshell,新建。这个文件是一个没有后缀名的文本文件。2. 使用ping 命令来检查。1. 修改hosts文件。我们在从本机开始去连接。来,我们一起操作一下。

2025-05-18 22:56:04 682

原创 rdd程序

在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词。按住ctrl+D退出。

2025-05-18 22:53:43 217

原创 配置历史服务

进入 /opt/module/spark-standalone/conf/spark-default.conf.temple 先把名称改成spark-default.conf,再补充两个设置。的hdfs服务(start-dfs.sh),并在根目录创建目录directory。(注:4、5两步在上一条博客中直接一起配置了,所以这里可自行跳过)命令是 ./start-history-server.sh。四、修改spark-env.sh文件。命令是 ./start-all.sh。六、重启spark集群。

2025-05-18 22:52:27 147

原创 yarn.

配置 Hadoop 的核心配置文件,如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml,设置相关参数,如文件系统路径、资源分配等。启动 Hadoop 集群,包括 NameNode、DataNode、ResourceManager 和 NodeManager 等服务。规划好集群中节点的角色,如 Master 节点、Worker 节点等,并确保各节点之间网络畅通,能相互访问。下载 Spark 安装包,解压到集群各节点的指定目录。

2025-05-18 22:31:29 211

原创 toooo2

/ 它要做7件事 hadoop jar mc8.js com.example.mapreduce.WordCountDriver /要处理的文件夹 /结果路径。// 6. 设置输入路径(D:\vm\wcinput)和输出路径(D:\vm\output01)(4)重新打包生成jar,假设名称为MapReduceDemo1-1.0-SNAPSHOT.jar。// 5. 设置Reduce的键值对泛型。// 4. 设置Map的键值对泛型。// 2. 关联本地的jar包。// 连接到hadoop集群。

2025-05-18 22:28:29 356

原创 配置Hadoop集群环境-使用脚本命令实现集群文件同步

在一台机器上模拟出 Hadoop 分布式系统的各个组件,各个组件在逻辑上是分离的,但是都运行在同一台物理机器上,以此来模拟分布式环境。任务1:在hadoop102上,将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。如果当前在A机器上,要把A机器上的/etc/tst下的所有内容拷贝到B机器上的/etc/tst目录下,应该的命令应该怎么写?在hadoop101上操作,将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。

2025-05-13 15:37:57 855

原创 12配置Hadoop集群-集群配置

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。刚才我们是在hadoop100这台机器上进行了正确的设置,但是,其他的2台机器也要做相同的配置。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来保存文件,可以使用提供强大的计算能力。接下来配置第二个文件,/opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml。

2025-05-13 15:36:20 557

原创 ssh命令

eg:目标:hadoop100通过ssh访问hadoop101,hadoop102时不需要密码,其他两台设备也类似。2.在hadoop100中,把自己的公钥传递给hadoop101,hadoop102。1.在hadoop100中生成公钥和密码。hadoop101 无密登录 hadoop100,hadoop102 与(1)类似。hadoop102 无密登录 hadoop100,hadoop101 与(1)类似。eg:从hadoop100进入hadoop101的命令就是。退出命令就是:exit。

2025-05-13 15:35:36 135

原创 配置并克隆虚拟机

原文链接:https://blog.youkuaiyun.com/2401_87373448/article/details/147892395。配置服务器IP地址用来通信,我们要把多台虚拟机设置为一个集群来工作,就必须给他们配置相同网段的IP地址。重启的命令是reboot,检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。

2025-05-13 15:35:00 192

原创 安装vm和centOS

1. 下载 VMware Workstation Pro 访问 VMware 官方网站(https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html ),根据自己的操作系统版本下载对应的 VMware Workstation Pro 安装程序。- 在安装信息摘要界面,设置“安装位置”、“软件选择”等选项: - 点击“安装位置”,选择自动分区或手动分区,然后点击“完成”。- 安装完成后,点击“完成”。

2025-05-13 15:34:23 379

原创 vi的基本使用

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。1.如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:new file。vi编辑器有三种工作模式,分别为:命令模式,输入模式,底线模式。提示:在命令模式下按shift + zz,可实现快速保存退出。由于没有鼠标,我们的操作都是用键盘来控制光标的。2.如果文件已存在,此时就打开这个文件,进入命令模式。底线命令模式:以:开始,通常用于文件的保存和退出。是Linux的内置命令,以命令的方式来运行。

2025-05-13 15:33:47 141

原创 Linux的操作系统命令

当前路径:也叫做当前工作目录是当下用户所处的位置。~波浪线,当前用户的home目录,比如root用户home目录是/root。rm -rf ./bbb 将目录及以下所有递归逐一删除,无需用户确认。相对路径:当前相对当前工作目录开始的路径,会随着当前路径变化而变化。绝对路径:不管工作目录在哪绝对路径都是从/根目录开始,唯一不重复。mkdir -p:创建目录,如果父级目录不存在,就建立一个新目录。ll -a 命令,显示当前的目录下的文件,包括隐藏文件。ll 命令,用来显示当前的目录下的文件。

2025-05-13 15:33:08 140

原创 spark

慢因为她的计算结果保存在磁盘 处理在。大数据时代-分布式处理。

2025-05-13 15:32:33 317

原创 如何在idea中写spark程序

(1)访问Scala官方网站(https://www.scala-lang.org/download/)下载适合操 作系统的Scala安装包。安装Scala的操 作,也是一路默认安装即可。(2) 打开命令提示符(CMD),输入以下命令:scala -version 如果显示Scala 的版本信息,说明安装成功。Spark是基于scala的,当然它也可以支持java和scala还有python语言,我们这里会使用scala。它的功能是wordcount的功能:从指定的文件夹中去读取文件,并做词频统计。

2025-05-13 15:31:44 276

原创 在Idea中编写Spark程序并运行

复制之前的文件,重命名为WordCount_online,并修改两个地方:输入目录改成args(0), 输出的目录改成args(1)。原文链接:https://blog.youkuaiyun.com/2401_87373448/article/details/147922987。我们学习了如何在Idea中编写程序的基本流程,并写了一个wordcount程序,可以对比它和mapreduce的使用方式区别。// 写一个spark程序,统计input目录下所有文本文件中单词的词频。// 读取目录下的所有文本文件。

2025-05-13 15:30:40 355

原创 数据清洗3

即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要设置两个属性即可,我们来看下代码怎么设置。原文链接:https://blog.youkuaiyun.com/2401_87373448/article/details/147923095。基于WordCount案例,只需要在dirvier类的代码中,去设置在reduce端输出压缩开启,并设置压缩的方式即可。// 设置压缩的方式。

2025-05-13 15:25:37 374

原创 数据压缩2

hadoop自动检查文件拓展名,如果拓展名能够匹配,就会用恰当的编解码方式对文件进行压缩和解压。如果数据量小于块大小(128M),则不需要考虑切点问题,重点考虑压缩和解压缩速度比较快的LZO/Snappy。如果需要切片,重点考虑支持切片的Bzip2和LZO。为了减少MapTask和ReduceTask之间的网络IO,重点考虑压缩和解压缩快的LZO,Snappy。压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。优点:压缩/解压速度比较快;缺点:压缩/解压速度慢。

2025-05-13 15:22:27 147

原创 数据压缩1

就好比有一堆杂乱的积木,压缩算法呢,就像是把这些积木按照一定规则整理起来,装进一个小盒子里,这样占用的空间就变小了,这个过程就是压缩。不同的压缩算法整理积木的方式不一样,有的整理得更紧凑但花时间,有的速度快但可能没那么紧凑哦。有损压缩则会在一定程度上牺牲数据的精度来换取更高的压缩比,适用于对数据质量损失有一定容忍度的场景,如图像、音频、视频等多媒体数据。数据压缩是指在不丢失或尽可能少丢失数据信息的前提下,通过特定的算法和技术,对原始数据进行重新编码和处理,以减少数据存储空间或传输带宽的过程。

2025-05-13 15:18:51 180

原创 Yarn-tool接口2

/ 它要做7件事 hadoop jar mc8.js com.example.mapreduce.WordCountDriver /要处理的文件夹 /结果路径。原文链接:https://blog.youkuaiyun.com/2401_87373448/article/details/147923223。// 6. 设置输入路径(D:\vm\wcinput)和输出路径(D:\vm\output01)// 5. 设置Reduce的键值对泛型。// 4. 设置Map的键值对泛型。// 2. 关联本地的jar包。

2025-05-13 15:17:48 312

原创 Yarn-tool接口

org.apache.hadoop.util.Tool 是 Apache Hadoop 框架里的一个接口,其用途是协助开发可通过命令行运行的 Hadoop 应用程序。run(String[] args):此方法为应用程序的主要执行逻辑,接收命令行参数,返回一个整数代表执行结果(通常 0 表示成功,非 0 表示失败)。原文链接:https://blog.youkuaiyun.com/2401_87373448/article/details/147923169。// 使用 ToolRunner 运行应用程序。

2025-05-13 15:16:41 380

原创 yarn集群

压缩包在/opt/modules 将spark解压到/opt/installs。#因为YARN中运行Spark,需要用到Spark的一些类和方法。#如果不上传到HDFS,每次运行YARN都要上传一次,比较慢。## 22行左右设置JAVA安装目录、HADOOP和YARN配置文件。#所以自己手动上传一次,以后每次YARN直接读取即可。将解压后的文件重命名,并对设置一个软连接。修改spark-env.sh配置文件。修改级别为WARN,打印日志少一点。## 历史日志服务器。

2025-05-12 23:49:41 225

原创 虚拟机配置

配置服务器IP地址用来通信,我们要把多台虚拟机设置为一个集群来工作,就必须给他们配置相同网段的IP地址。重启的命令是reboot,检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。Step3: 设置虚拟机hadoop100的IP。(3)最后,关闭服务器的防火墙。具体设置为:进入虚拟机,修改对应的IP。

2025-05-12 23:44:57 183

原创 Hadoop区别

HDFS用于存储大规模数据,它将文件分割成多个数据块(block),并将这些数据块存储在多个节点上,以实现数据的高可靠性和高吞吐量访问。它将任务分解为Map(映射)和Reduce(归并)两个阶段,Map任务负责处理输入的键值对并生成中间结果,Reduce任务对中间结果进行归并操作,最终得到最终结果。• 高可靠性:通过在多个节点上存储数据块的副本(默认是3个副本),即使部分节点出现故障,数据也不会丢失。例如,当一个存储数据块的节点发生故障时,系统可以从其他存储该数据块副本的节点读取数据。

2025-05-12 23:43:07 331

原创 spark和hadoop的区别与联系

例如,Spark 可以与 Hive 集成,利用 Hive 的元数据管理和 SQL 查询功能,结合 Spark 的计算能力,实现更高效的数据查询和分析。它提供了丰富的 API,如 Spark Core、Spark SQL、Spark Streaming 等,能方便地进行各种数据处理任务,包括批处理、交互式查询、流计算等。开发者可以使用这些 API 以更直观的方式进行数据处理,例如使用 RDD(弹性分布式数据集)的各种操作,如 map、filter、reduceByKey 等,代码更加简洁易懂,开发效率更高。

2025-05-12 10:58:48 362

原创 spark和hadoop区别联系

联系。

2025-04-21 08:27:51 248

原创 linux常见操作命令

【代码】linux常见操作命令。

2025-03-03 19:21:54 164

原创 vm和centos

exe。

2025-02-24 11:36:21 831 1

原创 vi基本使用

进入vi三种基本模式命令模式,插入模式,末行模式光标移动hjkl0Gggxddd0d$yyp。

2025-02-24 11:30:54 287

原创 250224

sp

2025-02-24 10:13:40 121

原创 24120933

2024-12-09 09:38:50 128

原创 24120922

2024-12-09 09:24:45 112

原创 24120911

2024-12-09 09:23:52 77

原创 一个抽象的类

具体方法 完整的,有方法体的。def xxx() { }抽象方法 只有 def 方法名。抽象属性 var 属性名:类型。具体属性 var,val 属性名 = 值。继承抽象类时,必须要实现所有的抽象属性和抽象方法。的作用:提供标准,供其他类来继承(实现标准)

2024-12-08 23:56:28 183

原创 类的定义,

属性也叫成员变量,用来描述事物的外在特征,属性是可改的, 对象 . 属性名=值。面向对象:是一种编程思想,它是基于面向对象的,强调的是以对象为基础完成各项操作。(2)匿名类:指没有名字的类,可以利用接口和抽象类的名字创建匿名类。(4) 抽象类:通过 abstract 关键字定义的类。(1)普通类:通过 class 关键字定义的类。(5) 对象:对象是类的具体实例,是具体的。(3)内部类:在普通类中创建的另外一个类。(2) 属性:每一个对象所具有的特征。(4)类(内部类):对类的属性封装。

2024-12-08 23:55:32 168

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除