必备的知识
1、语言:
Base on JAVA / Scala
2、后端必备知识:
数据结构和算法
数据库基础
计算机网络
操作系统
设计模式
Linux OS
0 时下大数据生态体系
1 Hadoop框架组成
一、Hadoop组成
二、HDFS架构
三、MapReduce架构
四、YARN架构
五、三者协调关系
2 学习部署
1、VMware安装
2、设置虚拟机(服务器)硬件,安装linux镜像(软件)
3、配置linxu系统与网络(IP、主机名称)
4、XSHELL安装(远程访问工具)
5、Xftp安装(传输工具,配合XSHELL)
6、在XSHELL下以root安装epel-release
7、克隆服务器
3 配置集群
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
//yarn-site.xml 防止内存限制容器被kill
//集群高可用
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>20480</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
</property>
workers
配置以上四大文件,详情请看教程
4 启动集群
第一次启动集群时,需要格式化NameNode。
在Hadoop根目录下输入如下命令进行NameNode格式化:
hdfs namenode -format
NameNode和DataNode的集群ID必须一致才能正常使用。
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。