HDFS04

最新推荐文章于 2024-07-22 19:07:08 发布

转载最新推荐文章于 2024-07-22 19:07:08 发布 · 44 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/xtdxs/p/7074649.html

===================HDFS副本放置策略===================

一个文件划分成多个block，每个 block存多份，如何为每个block选择节点存储这几份数据？

Block副本放置策略：

√副本1：同Client节点上

√副本2：不同机架的节点上

√副本3：与第二个副本同一机架的另一个节点上

√其他副本：随机挑选

===================HDFS不适合存储小文件===================

元信息存储在NameNode内存中 ------------->

√一个节点的内存是有限的

存储大量小文件消耗大量的寻到时间 ------------->

√类比拷贝大量小文件与拷贝同等大小的一个大文件

NameNode存储block数目有限 ------------->

√一个block元信息消耗大约150byte内存

√存储1亿个block，大约需要20GB内存

√如果一个文件大小为10K，则1亿个文件大小仅为1TB（但要消耗掉 NameNode 20GB内存）

转载于:https://www.cnblogs.com/xtdxs/p/7074649.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34248849

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据实验二-HDFS编程实践

04-03

### 大数据实验二-HDFS编程实践 #### 实验内容概览本次实验的主要目标是通过对HDFS（Hadoop Distributed File System）的操作实践，加深学生对HDFS在Hadoop架构中的作用及其基本操作的理解。实验内容包括两大部分...

【HDFS篇04】HDFS客户端操作 --- 文件操作1

08-04

在Hadoop分布式文件系统（HDFS）中，客户端操作是数据存取的关键环节。本篇文章主要探讨了HDFS客户端进行文件操作的相关知识点，包括文件上传、下载、删除以及重命名，同时也涉及到了配置参数的优先级规则。首先，...

参与评论您还未登录，请先登录后发表或查看评论

HDFS04 HDFS的读写流程

好好学习天天向上

04-14

301

HDFS的读写流程(面试重点) 文章目录HDFS的读写流程(面试重点)HDFS写数据流程网络拓扑-节点距离计算机架感知(副本存储节点的选择)HDFS的读数据流程 HDFS写数据流程客服端把D://ss.avi文件传送到集群 1.首先需要创建一个Distributed FileSystem（分布式文件系统）客服端。向NameNode请求上传文件。上传到/user/atguigu/ss.avi路径。 2.NameNode 检查用户是否有权限，检查目标路径/user/atguigu是否可行，检测目标文件ss.a

Hadoop之HDFS04【JavaAPI操作】

波波烤鸭的博客

04-02

1552

前面项目中我们是创建的java项目来演示的，但是hadoop相关的依赖太多了，不方便，本文通过maven项目来演示HDFS的java API操作创建maven项目相关的依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId&...

HDFS

m0_46339499的博客

09-13

460

HDFS 一、概念 1、HDFS简介 1、是一个分布式的文件管理系统，通过目录树定位文件 2、适合一次写入，多次读出的场景，不支持文件的修改，适合做数据分析优点：高容错，大容量，分布式缺点：不支持并发写入和随机修改，不适合低延时数据访问，对小文件低效 2、HDFS架构 1、namenode：控制端处理客户端读写请求，配置副本策略，管理数据块映射信息，管理HDFS名称空间 2、datanode：执行端存储实际的数据块，执行数据块的读写操作 3、client：客户端文件

HDFS文件操作

2302_76694571的博客

07-22

1080

HDFS文件操作

Hadoop-HDFS

p0p09的博客

06-24

793

相对而言，edit日志文件通常都要远远小于fsimage,一个edit日志文件最大64M，更新操作写入到EditLog是非常高效的。3、slave启动后，会主动连接IPC服务，并且每隔3秒链接一次，这个时间是可以调整的，设置heartbeat，这个每隔一段时间连接一次的机制，称为心跳机制。命名空间镜像文件，它是文件系统元数据的一个完整的永久检查点，内部维护的是最近一次检查点的文件系统树和整棵树内部的所有文件和目录的元数据，如修改时间，访问时间，访问权限，副本数据，块大小，文件的块列表信息等等。

HDFS快照

fangwei1234的博客

05-17

1871

快照使用场景：防止用户的错误操作：管理员可以通过以滚动的方式周期性设置一个只读的快照，这样就可以在文件系统上有若干份只读快照。如果用户意外地删除了一个文件，就可以使用包含该文件的最新只读快照来进行回复。备份：管理员可以根据需求来备份整个文件系统，一个目录或者单一一个文件。管理员设置一个只读快照，并使用这个快照作为整个全量备份的开始点。增量备份可以通过比较两个快照的差异来产生。试验/测试: 一个用户当想要在数据集上测试一个应用程序。一般情况下，如果不做该数据集的全量拷贝，测...

HDFS命令

早拾碗吧的博客

04-29

896

常用HDFS操作命令

Java操作HDFS

anglemanyi的博客

09-24

1050

方法一：关闭HDFS权限校验，vim hdfs-site.xml 添加配置。其他用户没有访问HDFS的权限，解决办法有两种。方法二：修改HDFS根路径的权限为777。访问HDFS时发生报错。

HDFS编程

qq_75121443的博客

11-06

690

实验内容本实验利用 Hadoop 提供的 Java API 进行编程对 HDFS 进行操作。实验目标通过本实验掌握利用 Hadoop 提供的 Java API 进行编程对 HDFS 进行操作。实验知识点HDFS 目录操作实验环境CourseGrading在线实验环境工作目录：~/Desktop/workspace/hdfs_pro预备知识Hadoop 基本操作MapReduce 编程基础HDFS 基本操作Java 编程基础。

HDFS Disk Balancer

ying123lei的博客

07-14

1508

概述 DiskBalancer是一个命令行工具，可在DataNode的所有磁盘上均匀分发数据。此工具对给定的DataNode进行操作，并将块从一个磁盘移动到当前DataNode的另一个磁盘。DiskBalancer通过创建计划并继续在DataNode上执行该计划。计划是一组陈述，描述了两个磁盘之间应该移动的数据。计划由多个移动步骤组成。移动步骤具有源磁盘，目标磁盘和移动的字节数。可以针对运行数据节点执行计划。DiskBalancer是一个相对独立的线程，它可以对数据的复制进行限流。集群默认是.

04：HDFS分布式文件系统.zip

03-08

《HDFS分布式文件系统详解》 Hadoop Distributed File System（HDFS）是Apache Hadoop项目的核心组件之一，它是一个高容错、可扩展的分布式文件系统，专为处理大规模数据而设计。HDFS的设计目标是将大型数据集分布...

python 零基础学习篇-04.HDFS集群搭建--服务器-网络配置准备.mp4

04-30

python 零基础学习篇-04.HDFS集群搭建--服务器-网络配置准备.mp4

智能体平台dify-1.13版本的sql表结构

09-11

https://github.com/langgenius 提供的docker版本，开源提供的sql有一些缺失，项目无法运行。从docker拉出来的结构，已验证，1.13版本可部署运行。

【scratch3.0少儿编程-游戏原型-动画-项目源码】河道清理船巡线改编.zip

09-11

资源说明： 1：本资料仅用作交流学习参考，请切勿用于商业用途。 2：一套精品实用scratch3.0少儿编程游戏、动画源码资源，无论是入门练手还是项目复用都超实用，省去重复开发时间，让开发少走弯路！更多精品资源请访问 https://blog.youkuaiyun.com/ashyyyy/article/details/146464041

具备建图导航人脸及异常行为检测功能的 ROS 安防机器人

09-11

打开下面链接，直接免费下载资源： https://renmaiwang.cn/s/i0hbr ROS 安防机器人系统，能够为用户提供包括建图导航、人脸识别以及异常行为检测在内的多项核心功能。

微信小程序基础实验项目_大学课程实践作业_微信开发者工具_前端开发_JavaScript_WXML_WXSS_小程序框架_组件应用_API调用_云开发_数据绑定_事件处理_页面路由.zip

最新发布

09-11

采用普通摄像头结合 dlib 与 opencv 实现人脸 68 点检测及识别

09-11

打开下面链接，直接免费下载资源： https://renmaiwang.cn/s/wverw 在对人的正面脸部展开识别工作的过程中，所运用的设备为常规类型的摄像头，同时，在技术应用层面，借助 dlib 工具来对人脸的 68 个特征点实施检测操作，并且利用 opencv 中的 FaceRecognizer 模块分别开展人脸模型的训练工作与后续的人脸识别工作。

hdfs格式化

03-27

### HDFS NameNode Format 操作教程 #### 1. **HDFS NameNode 格式化概述** HDFS 的 `hdfs namenode -format` 是用于初始化 HDFS 文件系统的命令。该命令会创建必要的元数据目录结构并写入 VERSION 文件到指定路径下，通常位于 `/tmp/...` 或者由配置文件中的参数定义的位置。此操作仅需在首次部署 HDFS 集群或者重新初始化集群时执行一次。如果已经存在旧的数据，则需要谨慎处理以防丢失重要信息[^1]。 --- #### 2. **准备工作** ##### a. 确认环境变量设置确保 `$HADOOP_HOME` 和 PATH 已正确定义。如果没有正确加载 Hadoop 路径，可能会遇到 `hdfs command not found` 错误。可以通过编辑 `/etc/profile` 添加如下内容实现： ```bash export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source /etc/profile ``` 验证是否生效可以运行以下命令测试： ```bash echo $HADOOP_HOME which hdfs ``` 上述步骤解决了因未找到 Hadoop 安装路径而导致的格式化失败问题[^3]。 --- ##### b. 编辑核心配置文件两个重要的 XML 配置文件分别是 `core-site.xml` 和 `hdfs-site.xml`： - **core-site.xml**: 设置 NameNode 数据存储位置。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` - **hdfs-site.xml**: 自定义副本数、共享日志地址等高级选项。 ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/data-hadoop/namenode</value> </property> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://dem02:8485;dem03:8485;dem04:8485/mycluster</value> </property> </configuration> ``` 注意：如果 `dfs.namenode.shared.edits.dir` 中主机名拼写有误（如将 slave 写成 dem02），可能导致格式化失败。修正后再次尝试即可成功。 --- #### 3. **执行格式化命令** 完成以上准备后，在终端中切换至具有管理员权限的状态，并运行下列指令完成 NameNode 初始化工作： ```bash sudo bin/hdfs namenode -format ``` 若无特殊需求，默认情况下无需额外参数；但为了区分不同用途可附加自定义名称作为标记，例如 `-nonInteractive myClusterName`[^2]。某些场景下由于先前残留临时文件干扰新实例建立过程，建议清理后再试： ```bash rm -rf /tmp/* rm -rf /path/to/QJEditsData/ ``` 这里提到 QJEditsData 文件夹是因为它可能是在多节点环境中产生的多余记录项之一[^4]。另外需要注意的是，当 core-site.xml 存在语法错误比如标签闭合不当等情况也会引发异常终止现象(`java.io.IOException`)。此时应仔细核对每处细节直至完全匹配标准模板为止[^5]。 --- #### 4. **后续验证** 一旦顺利完成格式化进程，可通过检查目标磁盘分区是否存在相应子目录确认实际效果。接着启动整个服务链路观察状态变化情况： ```bash start-dfs.sh jps | grep NameNode ``` 正常状况下应该能看到类似下面这样的输出结果表明一切就绪待命： ``` 12345 NameNode ``` --- ### 注意事项总结 - 如果之前已做过多次格式化而当前又报错，请先彻底清除所有关联缓存区域再重头开始。 - 对于涉及敏感生产资料的操作务必提前做好充分备份以免造成不可逆损害。 - 正确填写各个组件间通信所需的具体 IP 地址而非泛指 localhost 可提高跨网段协作效率减少潜在冲突风险。 ---