hdfs 分布式文件系统
mapreduce 大数据离线数据处理框架
yarn 统一资源管理和调度平台
hive 数据分析
sqoop 数据导入导出
hbase 大数据存储 非关系型数据库
flume 日志采集系统
spark 实时流式数据计算框架
hdfs
架构原理 配置 使用
1.分布式文件系统和普通文件系统
2.hdfs中的几个组件,都有什么作用
namenode:存储文件的元数据,接收来自客户端的读写请求
datanode:存储文件数据
secondarynamenode:第二名字节点,定期的检查并且合并FSImage系统快照,editlog编辑日志
3.hdfs默认存储几块,每块大小、
3, 128M
4.seconderynamenode 和namenode之间的关系
SecondaryNameNode引导NameNode滚动更新编辑日志文件,并开始将新的内容写入EditLog.new.
SecondaryNameNode将NameNode的FSImage和编辑文件复制到本地的检查点的目录
SecondaryNameNode载入FSImage文件,回放编辑日志,将其合并到FSImage,将新的FSImage文件压缩后写入磁盘。
SecondaryNameNode将新的FSImage文件送回NameNode,NameNode在接收新的FSImage后,直接加载和应用该文件
NameNode将Edit Log.new更名为Edit Log
5.hdfs的容错机制
副本机制和心跳机制
6.hadoop 2.X 端口号是8020 1.X 版本端口是 9000
7.hdfs配置核心配置文件和配置内容
hadoop-env.sh JAVA_HOME HADOOP_HOME
core-site.xml dfs.d

本文深入探讨了Hadoop生态系统,包括HDFS的架构原理、配置与使用,如NameNode、DataNode和SecondaryNameNode的角色;MapReduce的大数据处理流程;YARN的组件及其在资源管理和调度中的作用;HBase作为NoSQL数据库的基础概念;以及Flume的日志采集系统。此外,还涵盖了HDFS、MapReduce、YARN、HBase和Flume的基本操作和配置要点。
最低0.47元/天 解锁文章
873

被折叠的 条评论
为什么被折叠?



