HDSF学习

一、HDFS简介

HDFS是基于流数据模式访问和处理大文件的需求而开发的,它可以运行与廉价的商用服务器上。
特点:
(1)处理超大文件
(2)流式地访问数据
(3)运行于廉价的商用机器集群上
缺点:
(1)不适用低延迟数据访问
(2)无法高效存储大量小文件
(3)不支持多用户写入及任意修改文件


二、HDFS相关概念

(1)块
文件以块的形式存储在磁盘中,64MB/块
(2)NameNode和DataNode
这里写图片描述
这里写图片描述

### Hadoop 安装教程 Hadoop 的安装过程涉及多个步骤,确保环境配置正确对于后续操作至关重要。以下是基于Linux系统的典型安装流程: #### 准备工作 - 确认Java已正确安装并设置好`JAVA_HOME`环境变量。 - 关闭防火墙或调整其规则以允许集群节点间的通信。 #### 下载与解压软件包 从Apache官方网站获取新稳定版本的Hadoop压缩包,并将其放置到目标服务器上适当的位置进行解压: ```bash wget https://downloads.apache.org/hadoop/common/stable/hadoop-x.y.z.tar.gz tar -xzvf hadoop-x.y.z.tar.gz cd hadoop-x.y.z/ ``` #### 配置文件修改 编辑`etc/hadoop/core-site.xml`, `hdfs-site.xml`等核心配置文件来适应具体的硬件资源情况和网络拓扑结构[^1]。 --- ### HDFS 使用指南 一旦完成了上述提到的Hadoop部署之后就可以开始探索如何有效地管理和操作HDFS了。这里介绍几个常用的功能点及其对应的shell指令。 #### 文件系统交互命令 为了简化用户的日常管理维护活动,Hadoop提供了一套类似于POSIX标准下的文件系统接口——即`hadoop fs` 或者简称 `hdfs dfs` 。这些工具能够帮助执行诸如列出目录内容(`ls`)、复制本地文件至远程位置(`put`)或是相反方向(`get`)等一系列基本动作[^2]: ```bash # 查看根路径下所有条目详情 hadoop fs -ls / # 将当前机器上的文本文件传输给指定的目标地址 hadoop fs -put localfile /user/hadoop/hadoopfile # 获取远端存储对象保存成本地副本 hadoop fs -get /user/hadoop/hadoopfile localfile ``` #### 数据块管理特性 值得注意的是,在物理层面实现方面,每一个被写入的数据都会被打散成固定大小的小片段分散存放在不同DataNodes之上;而后者作为整个架构里不可或缺的一部分,则承担起了保障整体性能表现和服务质量水平的重要职责[^3].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值