HDFS文件系统,用于存储文件,一次写入,多次读出操作
大数据:以电商为例 记录日志,计算日志,根据日志预测
优点:集群 好几台机器共同去存储这个日志。分成多块。容错性好(提高安全性,比如记录一年的日志信息服务器坏掉丢了,创建副本,服务器随机有一份或两份),可以处理大规模数据,服务器要求低
缺点:数据访问低,大量小文件不容易存储,不支持并发写入
副本机制
NameNode:Master,管理者,管理HDFS命名空间,管理数据块,存放元数据,处理客户端读写请求
DataNode:Slave,执行者,负责执行具体操作,存储实际数据块,执行数据库读写操作
文件安装固定大小(128M)切成若干后分布式存储在datanode节点上,每个存在不同的datanode上
Client:客户端,切分文件,与nameNode交互获取文件位置信息,和DataNodej交互读取或写入数据,管理HDFS
缺点:1.不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处理,节点可能成为网络瓶颈,很难进行大数据的处理;
2.存储负载很难均衡,每个节点的利用率很低;
HDFS中文件都是存成文件块,文件块的位置是在
HDFS数据块太小增加寻址时间,太大影响磁盘传输时间,所以数据块的大小取决于磁盘传输速度
进入hadoop bin目录下
查看命令
./hadoop fs
查看文件
./hadoop fs -ls /
报警告提示不影响命令:20/07/06 19:49:43 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 警告util.NativeCodeLoader:无法为您的平台加载本机hadoop库。。。在适用的情况下使用内置java类
https://blog.youkuaiyun.com/qq_43688472/article/deta