
Hadoop
文章平均质量分 89
Hadoop基础知识点梳理
金州饿霸
这个作者很懒,什么都没留下…
展开
-
YARN资源调度器
在YARN中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,YARN提供了多种调度器和可配置的策略供选择。FIFO Scheduler(先进先出调度器) ,Capacity Scheduler(容量调度器),Fair Scheduler(公平调度器)。默认情况下,Apache版本YARN使用的是Capacity调度器。如果需要使用其他的调度器,可以在yarn-site.xml中的进行配置,具体的配置方式如下:在YARN中,有。原创 2025-01-09 16:08:33 · 909 阅读 · 0 评论 -
YARN WebUI 服务
或点击页面左侧Tools栏目中的红线框configuration链接会打开JHS的所需配置页面,在配置页面中,主要有集群自定义配置(core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml)和集群默认配置(core-default.xml、hdfs-default.xml、yarn-default.xml和mapred-default.xml)两种。当点击任意一个应用程序时,会打开一个新页面,并展示这个应用程序的运行信息。原创 2025-01-09 15:09:21 · 1383 阅读 · 0 评论 -
hadoop-yarn常用命令
YARN提供了一组命令行工具,用于管理和监控YARN应用程序和集群。原创 2025-01-09 14:35:21 · 2461 阅读 · 0 评论 -
YARN 架构组件及原理
YARN(Yet Another Resource Negotiator,另一种资源协调者) 是 Hadoop 2.0 中的资源管理系统,它的基本设计思想是。其中 ResourceManager 负责整个系统的资源管理和分配,而 ApplicationMaster负责单个应用程序的管理。一个全局的资源管理器 ResourceManager 和每个应用程序特有的ApplicationMaster。原创 2025-01-09 11:09:20 · 591 阅读 · 0 评论 -
YARN 集群
Apache Hadoop YARN是一个标准的Master/Slave集群(主从架构)。其中ResourceManager(RM) 为Master, NodeManager(NM) 为 Slave。常见的是一主多从集群,也可以搭建RM的HA高可用集群。原创 2025-01-09 10:57:33 · 1103 阅读 · 0 评论 -
Apache Hadoop YARN框架概述
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器。YARN是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如何理解通用资源管理系统和调度平台?资源管理系统:集群的硬件资源,和程序运行相关,比如内存、CPU等。调度平台:多个程序同时申请计算资源如何分配,调度的规则(算法)。原创 2025-01-09 09:52:42 · 940 阅读 · 0 评论 -
Namenode 元数据管理
在HDFS中文件相关元数据具有两种类型文件自身属性信息文件名称、权限,修改时间,文件大小,复制因子,数据块大小。文件块位置映射信息记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。按存储形式分为内存元数据和元数据文件两种,分别存在内存和磁盘上。原创 2025-01-08 10:16:09 · 766 阅读 · 0 评论 -
HDFS读写流程
因为namenode维护管理了文件系统的元数据信息,这就造成了不管是读还是写数据都是基于NameNode开始的,也就是说NameNode成为了HDFS访问的唯一入口。。原创 2025-01-07 19:16:01 · 881 阅读 · 0 评论 -
HDFS架构原理
HDFS遵循主从架构。NameNode是主节点,负责存储和管理文件系统元数据信息,包括namespace目录结构、文件块位置信息等;DataNode是从节点,负责存储文件具体的数据块。两种角色各司其职,共同协调完成分布式的文件存储服务。SecondaryNameNode是主角色的辅助角色,帮助主角色进行元数据的合并。原创 2025-01-07 18:30:12 · 1183 阅读 · 0 评论 -
HDFS Federation联邦机制
当前的HDFS架构有两个主要的层:命名空间HDFS体系结构中的命名空间层由文件,块和目录组成。该层支持与名称空间相关的文件系统操作,例如创建,删除,修改和列出文件和目录。块存储层(BlockStorage块存储层包括两个部分:块管理: NameNode执行块管理。块管理通过处理注册和定期心跳来提供DataNode群集成员身份。它处理块报告并支持与块相关的操作,如创建,删除,修改或获取块位置。它还维护块的位置,副本位置。为未复制的块管理块复制,并在已复制的块中删除。存储。原创 2025-01-07 17:18:42 · 346 阅读 · 0 评论 -
HDFS High Availability(HA)高可用
在HA集群中,脑裂指的是当联系主备节点的"心跳线"断开时(即两个节点断开联系时),本来为一个整体、动作协调的HA系统,就分裂成为两个独立的节点。当发生故障Active NN挂掉后,Standby NN 会在它成为Active NN 前,读取所有的JN里面的修改日志,这样就能高可靠的保证与挂掉的NN的目录镜像树一致,然后无缝的接替它的职责,维护来自客户端请求,从而达到一个高可用的目的。:都认为对方是故障的,自己是主角色。可以看出,9越多,系统的可靠性越强,能够容忍的业务中断时间越少,但是要付出的成本更高。原创 2025-01-07 17:02:34 · 1305 阅读 · 0 评论 -
HDFS异构存储和存储策略
异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。在读写效率上性能差距大。异构特性允许我们对不同文件选择不同的存储介质进行保存,以实现机器性能的最大化。原创 2025-01-07 16:38:02 · 968 阅读 · 0 评论 -
Hadoop常用文件存储格式
Arrow促进了许多组件之间的通信。极大的缩减了通信时候序列化、反序列化所浪费的时间。利用Arrow作为内存中数据表示的两个过程可以将数据从一种方法“重定向”到另一种方法,而无需序列化或反序列化。例如,Spark可以使用Python进程发送Arrow数据来执行用户定义的函数。无需进行反序列化,可以直接从启用了Arrow的数据存储系统中接收Arrow数据。例如,Kudu可以将Arrow数据直接发送到Impala进行分析。原创 2025-01-07 16:09:28 · 1015 阅读 · 0 评论 -
Hadoop常用命令总结
chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限。-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去。-appendToFile:追加一个文件到已经存在的文件末尾。-get:将hadoop上某个文件down至本地已有目录下。-cp :从HDFS的一个路径拷贝到HDFS的另一个路径。-touchz:在hadoop指定目录下新建一个空文件。–rm:删除hadoop上指定文件或文件夹。–put:将本地文件存储至hadoop。原创 2025-01-07 11:42:40 · 800 阅读 · 0 评论 -
HDFS REST HTTP API
WebHDFS其实是HDFS提供的HTTPRESTFul API接口,并且它是独立于Hadoop的版本的,它支持HDFS的完整FileSystem / FileContext接口。它可以让客户端发送http请求的方式来操作HDFS,而无需安装Hadoop。在我们经常使用的HDFS Web UI,它就是基于webhdfs来操作HDFS的。原创 2025-01-02 09:03:03 · 209 阅读 · 0 评论 -
HDFS Java API实现文件夹创建、文件上传和下载
一、和HDFS集群建立连接 private static Configuration conf =null; private static FileSystem fs =null; /** * 初始化方法 用于和hdfs集群建立连接 * @throws IOException */ @Before public void connectToHdfs() throws IOException { //设置客户端身份 以原创 2024-12-24 11:41:30 · 260 阅读 · 0 评论 -
Hadoop集群(HDFS集群、YARN集群、MapReduce计算框架)
主要在分布式环境下集群机器,获取海量数据的处理能力,实现分布式集群下的大数据存储和计算。其中存储分布式文件存储、分布式资源管理、分布式计算。原创 2024-12-23 14:29:46 · 1971 阅读 · 0 评论 -
Ubuntu上Hadoop集群安装和搭建(三台虚拟机,保姆级教程)
注意:这里不要使用克隆去克隆虚拟机,因为ub克隆后网络会出现问题,所建议大家直接安装三台虚拟机。原创 2024-10-09 11:36:28 · 3779 阅读 · 0 评论 -
Hadoop概述
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。HDFS(分布式文件系统):解决海量数据存储YARN(作业调度和集群资源管理的框架):解决资源任务调度MAPREDUCE(分布式运算编程框架):解决海量数据计算。原创 2024-09-18 15:56:51 · 1351 阅读 · 0 评论