- 博客(72)
- 收藏
- 关注
原创 数据清洗-案例
它是指对采集到的原始数据进行预处理,以去除错误、重复、不完整或不一致的数据,使数据符合分析要求的过程。对于reduce函数来说,它的输入参数是:<刷选后的每一行的内容,[null,null,...]>,对于我们的需求来说,并不需要这个阶段: 没有汇总的需求,直接使用Map的结果。map阶段:按行读入内容,对内容进行检查,如果字段的个数少于等于11,就删除这条日志(不保留)<偏移量,每一行的内容> → <刷选后的没一行的内容,null>对于map函数来说,它的输入参数是:<偏移量,第一行的内容>
2025-05-12 11:16:58
247
原创 MapReduce打包运行
在 Java 7 之前,Java 的版本命名一直是 1.x 的形式,例如 1.6、1.7。从 Java 9 开始,版本号的命名方式完全统一为 x,例如 Java 9、Java 11、Java 17 等,不再使用 1.x 的形式。我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。我们集群上安装的java环境是1.8的,那么我们生成的代码也必须是这个版本的,否则,就会无法运行。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。
2025-05-12 11:13:32
815
原创 spark-配置yarn模式
通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源, 这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。但是实际中,资源是有限的,并且在繁忙的群集上, 应用程序通常将需要等待其某些请求得到满足。现在,如果B用户在其他作业仍在运行时开始第二个作业,它将与B的另一个作业共享其资源,因此B的每个作业将拥有资源的四分之一,而A继续将拥有一半的资源。
2025-05-12 11:08:42
716
原创 mapreduce-wordcount程序
该阶段编程模型中有一个 reduce 函数需要开发人员重写,reduce 函数的输入也是一个 <key, value> 对,reduce 函数的输出也是一个 < key,List<value>> 对。Reduce是会跨节点fetch属于自己的数据,并进行处理,把结果进行汇总,存储到HDFS。该阶段的编程模型中会有一个 map 函数需要开发人员重写,map 函数的输入是一个 < key,value > 对,map 函数的输出也是一个 < key,value > 对,key和value的类型需要开发人员指定。
2025-05-12 11:02:45
530
原创 hdfs-shell操作
这里设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看DataNode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10。文件上传的意思是把文件从某个位置上传到集群中。它有两种操作,一是移动,会把当前的文件删除,二是复制,保留当前的文件。命令,它的格式是: hadoop fs -mv 文件起点 终点。把本地的文件上传到HDFS,并删除本地的文件。,它的格式是: -rm -r 要删除的文件夹。命令,它的格式是: -rm 要删除的文件。
2025-05-12 10:29:40
901
原创 HDFS背景
HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置;随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,1. 不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
2025-05-12 09:37:55
496
原创 配置集群-编写hadoop启动停止脚本
比较多,在启动的时候,还要分别进入不同的服务器写不同的命令,比较麻烦。3.分发/home/root/bin目录,保证自定义脚本在三台机器上都可以使用。同理,我们去/root/bin下创建一个新的脚本文件:jpsall,输入如下内容。3)分发/home/root/bin目录,保证自定义脚本在三台机器上都可以使用。我们在hadoop100中,运行 myhadoop start 启动集群。2.保存后退出,然后赋予脚本执行权限。保存后退出,然后赋予脚本执行权限。1.建立新文件,编写脚本程序。
2025-05-12 09:11:51
118
原创 配置集群-日志聚集操作
前面我们已经完成了任务日记的聚集,下面我们来看看是不是配置正确了。我们配置了多台服务器,并且每台服务器上运行的任务都不太相同,我们可以使用jps命令来查看每台设备上的运行任务。SecondaryNameNode,hdfs的核心服务,是NameNode的备份。是在具体的节点上运行的,所以运行日志也是产生在具体的节点上,但是我们希望应用。和之前的配置一样,我们需要把这个更新之后的yarn-site.xml文件。DataNode,它是hdfs的模块之一,每台服务器都有。它的入口在上面的位置。
2025-05-12 09:05:38
804
原创 配置集群-查看历史运行任务
小,你可以选择把它配置在集群中的任意一台节点上。但是,请注意,在哪一台上配置了,就应该在哪一台上去启动。把这个配置同步到其他的节点中。这里直接使用我们之前封装好的命令xsync来同步。请注意,你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。在hadoop的安装目录下,打开mapred-site.xml,并。通过jps命令来查看历史服务器是否已经成功启动了。从具体的history链接进行跳转。方式1:直接去看所有的历史记录。我们这把它配置在nn节点。查看JobHistory。
2025-05-12 09:00:38
130
原创 测试集群的功能-上传文件
前面我们上传了一个小文件,可以看到这个文件太小,hadoop被没有被切分成小块。上传文件的时候,我们传一个大一点的(>128M),再传一个小一点的。对于大一点的文件,我们要去看看它是否会按128M为单位去拆分这个大文件,而拆分成大文件之后,我们又怎么才能去还原?上传完成之后,我们去查看,很明显大文件被分块了,128M一块,一共有两个块。在集群根目录下创建wcinput目录,并在它的下面上传两个文本文件word1.txt, word2.txt,其中保存了要测试的单词信息。我们把它保存在集群的根目录。
2025-05-06 15:50:06
631
原创 配置hadoop集群-启动集群
查看YARN上运行的Job信息。同步给其他的机器,并使用source命令,让环境变量生效!命令:sbin/start-yarn.sh。提醒:此时会报错不允许使用root用户来启动HDFS!)在配置了ResourceManager的节点(NameNode(注意:格式化。)如果集群是第一次启动,需要。指定为namenode的节点。HDFS上存储的数据信息。
2025-04-21 10:21:53
298
原创 配置hadoop集群-修改配置文件
注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。5.配置workers(图中第一行不要)core-site.xml核心配置文件。2.HDFS配置文件。
2025-03-23 22:25:35
204
原创 配置hadoop集群-理论准备
Yet Another Resource Negotiator,简称YARN,另一种资源协调者,是Hadoop的资源管理器。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来。但是,我们要把它搭建起起来,就必须要了解它的基本组成,知道它的内部分工。(1)ResourceManager(RM):整个集群资源(内存,CPU。个组成部分:MapReduce,Yarn,HDFS。如果文件较大(>128M)把大文件拆小,并分别传输。在hadoop体系中,它用存储文件。
2025-03-23 21:50:45
275
原创 典型的错误及解决方式
hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。本机的hosts文件是否正确修改。1.每台虚拟机上是否正确配置了hosts。虚拟机的ip是否正确设置。ip addr 命令可以查看。本地控制面板,网络设置,vmnet8是否正常设置。2.rsync是否正确安装。本地服务:vmware是否正常运行。虚拟机是否可以正常ping。scp rsync命令异常。虚拟机是否正确开启。
2025-03-21 16:04:02
123
原创 hadoop集群配置-ssh无密登录
上,运行命令:ssh-keygen -t rsa。然后根据提示连续敲入三个回车。这个命令就会生成一对公钥和私钥。3.在hadoop100上登录hadoop101,验证效果。在hadoop100上登录hadoop101,验证效果。把hadoop100的公钥发到hadoop101上。上 有一个命令:ssh-copy-id 从机名。2.把主机的公钥发到从机1。在hadoop100上 生成密钥对。
2025-03-21 15:42:59
153
原创 hadoop集群配置-创建xsync脚本命令
在文件中输入以下代码并保存(代码中机器名记得改为自己的机器名)。root底下新建bin文件夹,bin文件夹中新建文件xsync。用下面的命令把这个脚本同步到其他的机器中。
2025-03-18 15:24:12
166
原创 配置Hadoop集群环境Ⅱ
先新建文件夹,在文件夹中新建文件1.txt 2.txt 3.txt 4.txt后,输入命令即可。同一命令可以再次传送新建的文件,不影响不重复传送之前文件。拉取和推送只用输入一道密码,搭桥要输入两道密码。注意:命令中 / 不可省略。scp命令--拓展使用。4.rsync远程同步。
2025-03-18 14:55:20
180
原创 hadoop集群配置Ⅰ
实际操作:打开第一台从机,在opt中新建文件夹(与主机名称一致)第二台从机也需要创建。hadoop的拷贝也是上面同样的命令,第二台从机拷贝如上操作。命令输入enter后,需要输入输入拷贝到的从机登陆密码。第一台从机opt下出现jdk表示拷贝成功。二、hadoop集群配置-scp命令。输入命令成功后:命令如下。
2025-03-17 09:47:56
495
原创 运行第一个hadoop示例程序
1.hadoop文件夹下新建一个文件夹(图中为wcinput,可自定),新建文件夹中再新建两个文件(文件名、文件内内容自定无要求)
2025-03-17 09:06:46
202
原创 在虚拟机上安装javaJDK和hadoop(3.4)
与JavaJDK的安装步骤一样:先解压-->配置环境变量-->测试。1.把JavaJDK文件上传到服务器上。4. 测试JDK是否安装成功。命令与JavaJDK一样。一、安装JavaJDK。二、安装hadoop。
2025-03-17 08:35:03
497
原创 配置并克隆虚拟机(2.25)
命令:vi /etc/sysconfig/network-scripts/ifcfg-ens33。修改打开的文件内容为:xiaoxiao001(自定义名字)命令是:vi /etc/hostname。命令是:vi /etc/hosts。修改完成后,esc退出编辑模式,:wq保存退出。通过vi编辑器去修改配置文件(ip地址)子网掩码:255,255,255,0。子网IP:192,168,10,0。(3)最后,关闭服务器的防火墙。进入虚拟机,修改对应的IP。(4)重启:reboot。(1)修改主机名称。
2025-02-25 18:23:08
430
原创 如何安装vm和centos
在安装信息摘要界面,设置“安装位置”“软件选择”等选项,设置完成后,点击“开始安装”。在“新建虚拟机向导”中,选择“典型(推荐)”,点击“下一步”。选择安装来源:选择“安装程序光盘映像文件(ISO)”,点击“浏览”找到之前下载的CentOS.iso镜像文件,然后点击“下一步”。指定磁盘容量:根据自己的需求指定磁盘容量大小,选择“将虚拟磁盘存储为单个文件”或“将虚拟磁盘拆分成多个文件”,点击“下一步”。选择安装位置:可以选择默认的安装位置,也可以点击“更改”选择其他路径,之后点击“下一步”。
2025-02-25 11:15:33
311
原创 VMware Workstation (2.18)
3.~波浪线,当前用户的home目录,比如root用户home目录是/home。2.ll -a 命令,显示当前的目录下的文件,包括隐藏文件。1.ll 命令,用来显示当前的目录下的文件。1. .点,点之前的空白是隐藏的系统目录。4.cd.. 命令,用于回退上一级目录。2.方向键(上下)。2. ..点点,当前目录的上一级目录。3.cd 命令,用来进入指定的目录。
2025-02-18 16:04:46
218
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人