Z_Data的博客

专注大数据知识分享

HDFS

关注

文章平均质量分 92

关注数：文章数：16 文章阅读量：26353 文章收藏量：123

作者: Z_Data

大学计算机专业老师一枚，高级开发工程师，专注大数据相关技术分享，实战项目开发。

展开

HDFS高可用（HA）

为了整个系统的可靠性，我们通常会在系统中部署两台或多台主节点，多台主节点形成主备的关系，但是某一时刻只有一个主节点能够对外提供服务，当某一时刻检测到对外提供服务的主节点“挂”掉之后，备用主节点能够立刻接替已挂掉的主节点对外提供服务，而用户感觉不到明显的系统中断。这样对用户来说整个系统就更加的可靠和高效。

原创 2023-09-21 11:27:28 · 1554 阅读 · 0 评论
HDFS --------- HDFS基于文件的数据结构

版权声明：原创文章，谢绝转载 https://blog.youkuaiyun.com/m0_37367424/article/details/84030988 存在原因Hadoop处理少量大文件时效率较高，但处理大量小文件是效率较低，因此设计了以下两种文件模式容器用于将大量小...

转载 2018-11-15 17:50:09 · 453 阅读 · 0 评论
MapReduce经典案例 ------- 学生成绩处理

目录算每个人的平均成绩求每个学科的平均成绩总平均分每个分数段的人数以及百分比将三门课程中任意一门不及格的学生过滤出来统计成材率每一门成绩都大于60分的人数/总人数待处理数据内容：学生成绩表名字语文数学英语 lh 92 68 70 zyt 94 88 75 ls 96 78 ...

原创 2018-11-09 08:52:23 · 3827 阅读 · 1 评论
MapReduce经典案例 -------- 统计最高温度

需求：求给定日期的最高温度待处理数据内容： 201701082.6 201701066 2017020810 2017030816.33 2017060833.0每一行的前8位是日期，从第8位往后是温度代码import java.io.IOException;import org.apache.hadoop.conf.Configuration;...

原创 2018-11-09 08:51:55 · 2746 阅读 · 0 评论
MapRecue实例开发 ------ 编程篇（经典wordcount程序编写）

目录 1、编程步骤2、经典的wordcount程序编写编写代码1、编程步骤用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端) Mapper的输入数据是KV对的形式（KV的类型可自定义） Mapper的输出数据是KV对的形式（KV的类型可自定义） Mapper中的业务逻辑写在map()方法...

原创 2018-11-08 11:30:42 · 477 阅读 · 0 评论
mapreduce概述 ------- 快速入门篇

MapReduce是什么mapreduce：分布式并行离线计算框架，是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上；与HDFS解决问题的原理类似，HDFS是将大的文件切分成若干小文件，然后将它们分别存储到集群中各个主...

原创 2018-11-08 11:17:20 · 396 阅读 · 0 评论
DataNode详解

目录 1、 Datanode功能2、 Datanode掉线判断时限参数1、 Datanode功能存储管理用户的文件块数据定期向namenode汇报自身所持有的block信息（通过心跳信息上报汇报的目的是，namenode如果长时间接收不到一个datanode的心跳后，说明该datanode宕机了，该datanode的数据块就被namenode拿不到了，需要从其他机上拿该da...

原创 2018-11-08 09:32:38 · 1201 阅读 · 0 评论
NameNode详解

目录 1、NameNode的功能2、 NameNode 启动过程3、 NameNode元数据管理4、安全模式1、NameNode的功能负责客户端请求的响应元数据的管理（查询，修改） 2、 NameNode 启动过程 NameNode启动的时候首先将fsimage（镜像）载入内存，并执行（replay）编辑日志editlog的的各项操作 ...

原创 2018-11-08 09:32:17 · 9833 阅读 · 0 评论
HDFS的java api详解 ------ 代码演示

目录 HDFS控制（Java）代码演示HDFS控制（Java）hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中，这些api能够支持的操作包含：打开文件，读写文件，删除文件等。FileSystem，该类是个抽象类，只能通过来类的get方法得到具体类。get方法存在几个重载版本，常用的是这个：static FileSystem get(...

原创 2018-11-08 09:31:51 · 307 阅读 · 0 评论
使用Java操作HDFS ----- 配置开发环境

目录1、下载winutils的windows版本https://github.com/SweetInk/hadoop-common-2.7.1-bin2、解压 hadoop-2.7.1.tar.gz 到windows指定的目录。如（D:\java\hadoop-2.7.1）3、配置环境变量4、压缩包（hadoop-common-2.7.1-bin-master.zip）里的hado...

原创 2018-11-07 17:59:37 · 683 阅读 · 0 评论
Hadoop回收站trash

Hadoop回收站trash，默认是关闭的。建议最好还是把它提前开开，否则误操作的时候，就欲哭无泪了修改conf/core-site.xml,增加复制代码 <property> <name>fs.trash.interval</name> <value>1440</value> <description&...

原创 2018-11-07 17:56:37 · 397 阅读 · 0 评论
HDFS工作机制详解

1 、HDFS概述 HDFS集群分为两大角色：NameNode、DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块block 文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本，并存放在不同的datanode上 Da...

原创 2018-11-07 15:59:06 · 487 阅读 · 0 评论
HDFS的shell操作

1、 HDFS shell操作HDFS提供shell命令行客户端，使用方法如下：2 、命令行客户端支持的命令参数[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] G...

原创 2018-11-07 15:32:22 · 277 阅读 · 0 评论
HDFS基本概念----初识HDFS

目录 1 、HDFS的介绍2、 HDFS设计目标3、 HDFS的特点4、 hdfs核心设计思想及作用5、重要特性如下：1 、HDFS的介绍源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版，HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统，运行在大量普通廉价机器上，提供容错机制，为大...

原创 2018-11-07 15:11:35 · 527 阅读 · 0 评论
HDFS集群使用效果演示

1 HDFS的基本使用查看集群状态 1、打开web控制台查看HDFS集群信息，在浏览器打开http://192.168.18.64:50070/2、使用命令查看：hdfs dfsadmin -report使用shell命令操作hdfs 从HDFS下载文件hadoop fs -get /wordcount/input/wordcount_content.txt #下...

原创 2018-11-07 14:34:21 · 434 阅读 · 0 评论
HDFS集群启动、YARN集群、简单操作演示

目录启动集群 1、格式化HDFS 因为HDFS也是文件系统，第一次使用一个文件系统都要格式化 2、启动hdfs集群（注意启动集群时，最好将集群中所有机器的时间设置一致 3、启动yarn集群 4、使用web查看集群的状态 5、hdfs简单操作演示 6、系统自带mapreduce案例演示启动集群 1、格式化HDFS 因为HDFS也是文件系统，第一次使...

原创 2018-11-07 14:16:26 · 2758 阅读 · 0 评论