Hadoop系列（二）HDFS常用操作，映射操作修改本地ip上传文件

最新推荐文章于 2024-06-21 14:34:09 发布

九八年的尾巴

最新推荐文章于 2024-06-21 14:34:09 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： hadoop linux 大数据 java

本文链接：https://blog.youkuaiyun.com/q736317048/article/details/107319420

本文介绍了Hadoop HDFS文件系统的特性，包括其集群存储、容错性和副本机制。详细讲解了NameNode和DataNode的角色，以及文件按固定大小分块存储的数据分布方式。讨论了HDFS的缺点，并提供了两种通过Java操作HDFS的方案，一种是修改slaves配置文件为外网IP，另一种是利用hosts文件映射。同时，指出了不同方法的适用场景和注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS文件系统，用于存储文件，一次写入，多次读出操作

大数据：以电商为例记录日志，计算日志，根据日志预测

优点：集群好几台机器共同去存储这个日志。分成多块。容错性好(提高安全性，比如记录一年的日志信息服务器坏掉丢了,创建副本，服务器随机有一份或两份)，可以处理大规模数据，服务器要求低

缺点：数据访问低，大量小文件不容易存储，不支持并发写入

副本机制

NameNode：Master，管理者，管理HDFS命名空间，管理数据块，存放元数据，处理客户端读写请求

DataNode：Slave，执行者，负责执行具体操作，存储实际数据块，执行数据库读写操作

文件安装固定大小（128M）切成若干后分布式存储在datanode节点上，每个存在不同的datanode上

Client：客户端，切分文件，与nameNode交互获取文件位置信息，和DataNodej交互读取或写入数据，管理HDFS

缺点：1.不管文件多大，都存储在一个节点上，在进行数据处理的时候很难进行并行处理，节点可能成为网络瓶颈，很难进行大数据的处理；

2.存储负载很难均衡，每个节点的利用率很低；

HDFS中文件都是存成文件块，文件块的位置是在

HDFS数据块太小增加寻址时间，太大影响磁盘传输时间，所以数据块的大小取决于磁盘传输速度

进入hadoop bin目录下

查看命令
./hadoop fs

查看文件
./hadoop fs -ls /
报警告提示不影响命令：20/07/06 19:49:43 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 警告util.NativeCodeLoader：无法为您的平台加载本机hadoop库。。。在适用的情况下使用内置java类
https://blog.youkuaiyun.com/qq_43688472/article/deta