1.liunx基本环境搭建:
(1)创建一个普通用户
(2)设置ip
(3)设置主机名
(4)修改映射
(5)配置普通用户具有root的权限
(6)关闭防火墙、开启不启动、selinux
搭建完以后重启
关闭虚拟机的时候尽量快照一下,也就是备份一下。以免数据丢失
2. 大数据介绍
大数据的实质: 通过处理数据的工具从海量的数据中提取有价值的信息。简单的说就是,数据、处理数据的工具以及从数据里面提取有用的信息变成钱的过程。
大数据按照功能来划分:
海量数据存储:
海量数据分析:
3.hadoop介绍
hadoop介绍:
大数据绝大多数框架,都是Apache顶级项目
Hadoop官网:
hadoop.apache.org
分布式:
相对于集中式
需要多台机器,协调完成任务
架构:
主节点Master
老大,管理者
从节点slave
从节点,从属,奴隶,被管理者
HDFS:Hadoop Distributed File System
主节点:nameNode
一个,活跃的一个(active),有一个备胎(standby)
作用:决定数据存储到那个DataNode上
从节点:DataNode --多个
作用:存储数据,管理数据
MapReduce:
分而治之
将海量的数据划分为多部分,对每一部分进行单独的处理,
最后对处理的结果进行合并
- map map task
单独处理每一部分的数据,
对于Java oop,就是对应一个方法
- rdudce reduce task
合并所有map taskd 结果
YARN:分布式资源管理框架
负责管理 集群各个机器的 资源(CPU、memory),
并且合理调度分配给各个程序使用(MapReduce程序)
主节点:ResourceManager
作用:管理集群的资源
从节点:NadeManager
作用:管理当前NadeManager所在的节点
总结:
Hadoop框架的安装部署,
都是属于JAVA进程,启动了JVM进程,运行服务
Hdfs:存储数据,为分析提供数据
NameNode/dataNode
Yarn:提供程序运行的资源
ResouceManager/NodeManager
4. 伪分布式安装Hadoop
文档:http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html
上传解压
tar -zxvf hadoop-2.7.3.tar.gz -C /opt/modules/
了解目录结构,删除无用文件
rm -rf bin/*.cmd
rm -rf sbin/*.cmd
rm -rf etc/hadoop/*.cmd
rm -rf share/doc/
修改配置:etc/hadoop/
(1)*-evn.sh:3个模块的环境变量文件
hadoop-env.sh 、yarn-env.sh(23行)、mapred-env.sh
JAVA_HOME=/opt/modules/jdk1.8.0_91
(2)按模块配置
a、common模块:core-site.xml
<!--指定文件系统HDFS的主机名称和端口号-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-hpsk01.huadian.com:8020</value>
</property>
<!--指定文件系统本地临时存储目录,默认值是系统/tmp-->
<!--临时目录需要自己创建-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.7.3/data/tmpData</value>
</property>
HDFS模块配置:
hdfs-site.xml
<!--由于是伪分布式,仅有一台机器,副本数量没有必要设置为3-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
slaves:指定小弟DataNode运行在那台机器上
如果有多个小弟,一行一个
bigdata-hpsk01.huadian.com
c、测试HDFS模块是否OK
-》格式化
bin/hdfs namenode -format
成功的标准:
18/08/07 23:25:02 INFO util.ExitUtil: Exiting with status 0
-》启动
主节点
sbin/hadoop-daemon.sh start namenode
从节点
sbin/hadoop-daemon.sh start datanode
-》验证是否成功:
方式一:查看进程jps
方式二:
bigdata-hpsk01.huadian.com:50070
-》测试HDFS:
(1)怎么用
bin/hdfs dfs
(2)创建一个目录
bin/hdfs dfs -mkdir -p /datas
(3)查看
bin/hdfs dfs -ls /
(4)上传文件
bin/hdfs dfs -put /opt/datas/input.data /datas
(5)查看文件
bin/hdfs dfs -text /datas/input.data
(6)删除文件
bin/hdfs dfs -rm -r -f /datas/input.data
d、YARN
对于分布式资源管理和任务调度框架来说,
在YARN上可以运行多种应用程序
- MapReduce
- spark
- tez
配置:yarn-site.xml
<!--resourcemanager服务运行的主机名名称-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>mapreduce_shuffle</value>
</property>
<!--告知YARN,MapReduce程序将在 其上运行-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>