
【Hadoop】
文章平均质量分 94
【Hadoop】
温欣2030
v:kkiss_heart
展开
-
【Hadoop_06】MapReduce的概述与wc案例
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2023-12-13 13:44:23 · 1286 阅读 · 0 评论 -
【Hadoop_05】NN、2NN以及DataNode的工作机制
如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。(2)如果计算后的CheckSum,与Block创建时值不一样,说明Block已经损坏。原创 2023-12-12 09:50:51 · 1194 阅读 · 0 评论 -
【Hadoop_04】HDFS的API操作与读写流程
此策略减少了机架间的写入流量,从而总体上提高了写入性能。机架故障的几率远小于节点故障的几率;该策略不影响数据可靠性和可用性保证。但是,它确实减少了读取数据时使用的聚合网络带宽,因为一个数据块只放在两个不同的机架中,而不是三个。使用此策略,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,另外三分之一的副本均匀分布在其余机架上。该策略提高了写入性能,而不影响数据可靠性或读取性能。原创 2023-12-12 08:42:01 · 1942 阅读 · 0 评论 -
【Hadoop_03】HDFS概述与Shell操作
1)各个模块分开启动/停止(配置ssh是前提)常用(1)整体启动/停止HDFS(2)整体启动/停止YARN2)各个服务组件逐一启动/停止(1)分别启动/停止HDFS组件(2)启动/停止YARN一般都是按照集群来启动,不然如果有100+台服务器的话,就无法启动了1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。原创 2023-12-11 10:53:30 · 1621 阅读 · 0 评论 -
【Hadoop_02】Hadoop运行模式
(1)如果集群是第一次启动,需要在hadoop102节点格式化NameNode(注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。上面这个命令的目的是运行一个 WordCount MapReduce 作业,从指定的输入路径 /input 读取数据,对其中的单词进行计数,并将结果输出到指定的输出路径 /output。在 Hadoop 中,HDFS 是用于存储数据的分布式文件系统,hadoop fs -mkdir 命令用于创建目录。原创 2023-12-09 09:48:12 · 1630 阅读 · 0 评论 -
【Hadoop_01】Hadoop介绍与安装
Hadoop解决两件事情:海量数据的存储(使用HDFS)和海量数据的计算(使用MapReduce)。简介:1)Hadoop是一个由Apachc基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。优势:1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。原创 2023-12-06 19:29:28 · 1400 阅读 · 0 评论