
Hadoop集群
文章平均质量分 97
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distri
过期的秋刀鱼-
勤学似春起之苗,不见其增,而日有所长。
展开
-
Hive
1)Hive出现原因FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了hive这门技术,并继续发展成为一个成功的Apache项目。2)Hive简介 hive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类似sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。这套HIVE SQL 简称HQL。hive的执行引擎可以是MR、spark、tez。原创 2023-03-19 13:47:42 · 3180 阅读 · 0 评论 -
Yarn资源调度器
(2)根据Application状态过滤:yarn application -list -appStates (所有状态:ALL、NEW、NEW_SAVING、SUBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED、KILLED)目前,Hadoop作业调度器主要有三种:FIFO、容量(Capacity Scheduler)和公平(Fair Scheduler)。FIFO调度器(First In First Out):单队列,根据提交作业的先后顺序,先来先服务。原创 2023-03-13 17:34:13 · 576 阅读 · 0 评论 -
MapReduce
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1 )输入数据接口:InputFormat( 1 )默认使用的实现类是:TextInputFormat( 2 )TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。原创 2023-03-13 15:27:44 · 670 阅读 · 0 评论 -
HDFS
1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,==迫切需要一种系统来管理多台机器上的文件,==这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2)HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。原创 2023-03-12 23:01:07 · 1305 阅读 · 0 评论 -
Hadoop入个门
Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决 海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop通常是指一个更广泛的概念------Hadoop生态圈发展史1)各个模块分开启动/停止(配置ssh是前提)常用(1)整体启动/停止HDFS(2)整体启动/停止YARN2)各个服务组件逐一启动/停止2)各个服务组件逐一启动/停止 (1)分别启动/停止HDFS组件 (2)启动/停止YARN。原创 2023-03-11 13:08:38 · 1682 阅读 · 0 评论