
大数据
鹿粒粒
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
H02-Hadoop3.x
Hadoop 3.x 2019年 Hadoop3.x 发布 与Hadoop2.x比较 License hadoop 2.x - Apache 2.0,开源 Hadoop 3.x - Apache 2.0,开源 支持的最低Java版本 Hadoop 2.x - java的最低支持版本是java 7 Hadoop 3.x - java的最低支持版本是java 8 容错 Hadoop 2.x - 可以通过复制(浪费空间)来处理容错。 Hadoop 3.x - 可以通过Erasure编码处理容错。 数据平衡 Had原创 2020-06-30 22:48:35 · 249 阅读 · 0 评论 -
H06-HDFS读写流程
写操作 文件A大小100M,client将A写入到HDFS上 HDFS按照默认配置, HDFS分布在三个机架上Rack1,Rack2,Rack3 写流程 A. client将A按照64M分块。分成两块:block1、block2 B. client向NameNode发送写数据请求,如图蓝色虚线① C.NameNode节点记录block信息。并返回可用DataNode,如粉色虚线② Block1: host2,host1,host3 Block2: host7,host8,host4 原理: NameNo原创 2020-06-10 21:27:05 · 350 阅读 · 0 评论 -
H05-HDFS常用命令
hdfs fs hdfs dfs -help hdfs dfs -ls 查看文件列表 hdfs dfs -lsr 递归查看 hdfs dfs -mkdir /user/hadoop 创建目录 hdfs dfs -put a.txt /user/hadoop/ 上传文件 hdfs dfs -get /user/hadoop/a.txt / 下载文件 hdfs dfs -cp src dst 复制文件 hdfs dfs -mv src dst 移动文件 hdfs dfs -cat /user/hadoop/a原创 2020-06-10 21:22:46 · 215 阅读 · 0 评论 -
H04-HDFS特点
HDFS优点 高容错性 数据自动保存多副本 副本丢失后,自动恢复 适合批处理 移动的计算和操作 数据位置暴露给计算框架 适合大数据处理GB、TB、PB甚至更大 百万规模以上的文件数量 10K+节点 可构建在廉价的机器上,通过副本提高可靠性 提供了容错和恢复机制 HDFS缺点 低延迟数据访问 毫秒级读取 低延迟与高吞吐量 小文件存取,占用NameNode内存空间 寻址时间超过读取时间 并发写入、文件随即修改 一个文件同时只能由一个写入 仅支持append追加,在尾部 3. HDFS放款的posix的要求,可以原创 2020-06-10 21:19:57 · 275 阅读 · 0 评论 -
H03-HDFS介绍
HDFS(Hadoop Distributed File System):Hadoop分布式文件系统。是根据google发表的论文翻版的,论文为GFS(Google File System)Google 文件系统。 HDFS特点 保存多副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 运行在廉价的机器上。 适合大数据的处理。HDFS默认会将文件分割成block,128M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中(namenode)。如果小文件太多..原创 2020-06-09 22:05:02 · 188 阅读 · 0 评论