
Hadoop
大数据入门基础
隔壁程序员老王
层楼终将误少年,自由早晚乱余生。
展开
-
HDFS查看文件的行数-前几行-后几行
查看文本行数hadoop fs -cat hdfs://172.168.0.11:8020/test/says_dict/sysdict_type.data |wc -l查看文件大小(单位byte)hadoop fs -du hdfs://172.168.0.11:8020/test/says_dict/*hadoop fs -count hdfs://172.168.0.11:8020/test/says_dict/*随机返回指定行数的样本数据hadoop fs -cat /test/.原创 2021-07-27 14:42:07 · 4008 阅读 · 1 评论 -
MR程序在YARN上的执行流程
执行流程:job.waitForCpmpletion将Job任务提交到APPsMaster apps返回一个jobID和临时工作目录 在HDFS中做初始化工作 加载xml文件--->configuration 上传jar包(Mapper类 Reducer类) Reducer的个数根据输入路径 计算任务切片(根据目标路径中文件的个数和文件的大小计算任务切片的大小)1)先查看文件的个数2)根据文件的大小 Fil...原创 2020-09-30 23:05:09 · 536 阅读 · 0 评论 -
Yarn简介和安装
Yarn简介和安装简介: YARN是分布式资源调度平台,主要负责集群资源管理和监控任务进度,它是一个通过资源管理系统和调度平台,为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大的好处.并行编程资源管理系统YARN的安装配置:需要在三个地方做环境配置:1.在yarn-site.xml中配置信息<configuration><!-- resource,manager主节点所在机器 --><property原创 2020-09-30 20:39:33 · 382 阅读 · 0 评论 -
数据倾斜及解决方案
数据倾斜概述:当reducer端从mappertask中去抓取属于它自己的数据的时候大量的相同的key被分到了同一个reducer区(shuffer)原因:当上游的数据需要分组到下游任务的时候,数据出现了不均匀的现象 1.key的性质, 2.key本身不好 3.(shuffer)现象:绝大多数的ReducerTask都执行的非常快 但有个别的ReducerTask执行的非常慢解决方案: 1.不取模 没有分区 就没有reduce原创 2020-09-30 18:07:31 · 205 阅读 · 0 评论 -
MapReduce案例脑图笔记
原创 2020-09-30 18:01:02 · 149 阅读 · 0 评论 -
MapReduce处理数据的流程
MR数据处理的流程MR是一种对海量数据进行运算的框架,模型,是一种面向面向大规模数据处理的一种方法,是用来对超大的数据进行运算和分析的.它一般由mapper端和reducer端两部分内容组成.首先任何工具方法都是源于客户的需求;当我们对客户需求进行分析以后再利用这些存储工具或运算工具去达成客户的需求.基于这一点去思考MR的流程MR处理数据的简要思路:mapper端主要的任务是对元数据进行处理,由于数据量特别大用一台机读取效率太低,用多台机器读同样的任务效率也不会提升;所以我们对一个大的文件进行原创 2020-09-30 16:22:54 · 2439 阅读 · 1 评论 -
最透彻的迭代器理解
迭代器对内部数据进行封装屏蔽可以无限扩充但只有一个对象迭代器可以只new一个对象 却将一个容器中的所有的数据都读出来意图:访问聚合对象内容而不暴露其内部结构。 提供简单明了的获取集合类型对象的方式。itearator 就相当于一个人用手从鸡窝里掏鸡蛋 人是看不见鸡窝里有多少个鸡蛋的 用手掏的时候 如果有就是next 如果没有 就是false 在这个过程中人的手就相当于一个迭代器迭代器的流程就像是给一瓶未做任何处理的酒进行加工一样,流程一需要发酵,流程二需要灌原创 2020-09-30 15:46:45 · 283 阅读 · 0 评论 -
HDFS中的序列化问题
序列化1.什么是序列化 将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。2.什么是反序列化 将字节流转化为一系列结构化对象的过程。序列化的用途:网络通信和持久化存储 1)作为一种持久化格式 2)作为一种通信的数据格式 3)作为一种数据拷贝、克隆机制序列化的特征: 1)紧凑:Hadoop中最稀缺的资源是宽带,所以紧凑的序列化机制可以充分的利用宽带。 2)快速:通信时大量使用序列化机制,因此,需要减少序列化和反序列化的原创 2020-09-30 15:39:52 · 270 阅读 · 0 评论 -
HDFS中的checkpoint(检查点)
checkpoint机制当客户端向NN发送请求以后 在NN当中的内存区的FsImage对象(元数据–内存对象) 会及时更新元数据信息(updataNode)但问题是元数据为了安全起见会进行持久化的存储,将内存中的文件序列化到磁盘当中,如果用户每次就行访问都进行持久化的话,又太消耗系统资源,基于这一问题就产生了checkpoint机制问题之所在: 当客户端对HDFS上的数据进行频繁操作以后, 数据的元数据会发生变化 , NameNode可以FSImage.saveImage()修改内存对象数据 ,原创 2020-09-30 13:53:46 · 2004 阅读 · 0 评论 -
HA的设计原理
设计之初就是为了解决单节点故障问题HA(High Availability高可用性)这里指的是hadoop的高可用机制在HDFS中NameNode只有一个,当这个NameNode挂了,整个集群就不能对外服务,需要花很长时间才能修复正常,才能继续工作,生产中是不允许这种事请发生.单节点故障问题:是指系统中一点失效,就会让整个系统无法运作的部件,换句话说,单节点故障就是整个集群故障.它将最初的NN(主节点)的log日志进行了分布式存储,是文件存储更加安全;并且对NN进行了监控,一旦NN出现故原创 2020-09-29 20:08:31 · 893 阅读 · 0 评论 -
元数据管理和副本存放策略的作用
元数据管理元数据存储在NN当中 提供客户端虚拟的访问目录 数据切块信息 副本个数 物理块的位置 物理块的描述信息 起始位置 大小副本存放策略的作用 HDFS作为Hadoop中的一个分布式文件系统,专门为它的MapReduce设计,所以HDFS除了满足自己作为分布式文件系统的高可用外,还必须为MapReduce提供高效的读写性能,那么HDFS该如何满足这些呢? 首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块又保存又多个副本,这些数据块副本存储在不同的机器上,这种...原创 2020-09-29 17:31:10 · 378 阅读 · 0 评论 -
NameNode和DataNode之间的通信
NameNode(主节点)接收DN的注册信息 并返回唯一的集群ID和统一的存储目录和UUID 接收DN汇报的磁盘空间和存储情况 分配存储任务给DN 接收DN的心跳机制和数据汇报 维护元数据信息的副本个数,给DN分配副本任务 管理和维护数据的存储信息(存储位置有:内存+磁盘 并且会复制子多份) 接收客户端发送的上传和下载的请求 并返回元数据的存储信息 给客户端提供虚拟的文件列表(shell命令) 从节点注册后发给DN的集群ID注意: 若从节点个数有限,当主节点分配...原创 2020-09-29 17:13:33 · 2184 阅读 · 1 评论 -
HADOOP的读写数据流程
写数据的流程所有的设备搭建都是基于客户需求(上传、下载、临时存储........)之上而来的,有了这些设备以后搭建集群,开启服务给客户提供相应的需求NN(主节点)一般先开机,初始化之后,会接收各个DN(从节点)开机以后发送的注册信息以及其资源存储情况当客户端有上传的需求时,会首先给NN发送上传请求 NN收到请求以后,判断集群中的资源情况,当资源足够时返回ok 客户端开始上传第一块数据的元数据信息 当NN接收到元数据信息时,会向客户端返回3台DN机器的位置(每来一块数据都返回3台节点机)--原创 2020-09-29 16:50:34 · 1172 阅读 · 0 评论 -
全网最全HADOOP脑图总结
原创 2020-09-29 16:15:14 · 404 阅读 · 0 评论 -
HDFS的安装
HDFS的安装1.上传HDFS的安装包到Linux的指定目录下2.解压到指定目录当中不建议使用-zxvf 加上v以后会影响解压速度3.目录结构bin 目录下为客户端可操作文件etc 配置文件sbin 组件的启停share 系统的jar包和文档 (share文件夹下有个doc文件夹 记得删掉 占内存 没啥用 影响传输速度)4.修改配置文件配置文件的目录在: /opt/apps/hadoop-3.2.1/hadoop-/etc/4.1 vi hadoop-en原创 2020-09-29 15:13:56 · 2342 阅读 · 2 评论