集群简述
对于企业而言,一般的集群大小规模大概是如下映射关系:
集群大小
小:10~30节点
中:100~300节点
大:1000+节点
对应所需的zookeeper集群规模大概是
小:3台
中:5台
大:7台
有些同学会说,学这玩意啥用啊?我之前集群环境搭的可6了,咔咔咔一顿操作就OK了,老哥,你试想一下,2000台集群节点呢?按照我们之前的配置方式。。。。。。请开始你的表演。
那么,我们不得不使用CM或类似CM的工具来管理我们的集群。
官方地址:http://www.cloudera.com/
集群管理工具:Cloudera Manager
小企业:
可以选择IBM System服务器
DataNode 20~30台,不需要支持RAID冗余,内存16~24G,对内存要求不大,主要消耗磁盘,磁盘预算:
一般都是16~18TB
每天产生20~50万访问量
每条日志大小:100~500bytes
每次访问平均产生5条日志
一天的数据量:
20~50万访问量 * 5条 * 500字节 / 1024 / 1024 ≈ 1192.0928兆字节数据
一般需要存储1年的数据:
1~5G * 365 = 365~1825G * 3副本 = 1095~5475GB
磁盘一般预留20%,所以可用空间为80%,那么上面得到的数据除以80%即可。
NameNode 2台,内存预算:
1G内存 --- 存储100万个元数据---100万个文件---一般我们需要NameNode内存为128G
ResourceManager一般与NameNode部署在一起
NodeManager一般与DataNode部署在一起
Zookeeper 内存要求不高,对于磁盘的读写性能要求高,网络带宽要求非常高
HBase
HMaster 要求较高的网络带宽
HRegionServer 对内存要求高,分为如下两个开销:
memstore
blockcache
你们集群中hdfs和yarn的使用率是多少
集群闲的时候60%多,忙的时候基本上都是在95%以上;hdfs一般在70%~90%之间;超过90%要么做数据清理,要么做集群扩容
1. job task stage 之间的关系
2. spark 内存溢出 及解决办法3..zk 的介绍及应用场景
4.HBASE 设计 存储数据与读取数据流程
5.hdfs 上传文件原理
6.安全模式命令,恢复过程
7. kafka 集群机器宕机8. 高可用spark集群主备切换过程(原理)
9.几台机器,如何分布,数据量多大
10.处理完数据放在哪里怎么放置
11.Spearkstreaming读取数据,放在zk上或者checkpoint上有什么区别,好处在哪。放在zk是否比放在checkpoint 更好
12.hive 表分区
13. hadoop kafka spark 版本
14. MR 流程 比如 wordcount
15. hadoop 集群 使用原生还是第三方, 常用命令, 如何搭建
16.scala 部分函数 map fltmap 区别
17.hive 窗口函数
各种机器宕机后如何恢复, 如何发现, 你是怎么做的