大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍

最新推荐文章于 2024-12-08 09:24:53 发布

无名氏—不学代码

最新推荐文章于 2024-12-08 09:24:53 发布

阅读量2.3k

点赞数 1

分类专栏： big data 文章标签： hadoop big data 人工智能

本文链接：https://blog.youkuaiyun.com/qq_40856602/article/details/120163914

版权

大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍

文章目录

大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍
1.课前资料
2.课程整体介绍
3.大数据介绍
4.集群环境准备
5.Hadoop介绍
6.hadoop集群初体验
- 6.1、HDFS 使用初体验
- 6.2、mapreduce程序初体验
7 HDFS入门介绍

1.课前资料

2.课程整体介绍

请添加图片描述

3.大数据介绍

3.1 什么是大数据？

简单来说大数据就是海量数据及其处理。

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产（资源）。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [2] 中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。——摘自百度百科

3.2 为什么要学习大数据?

拓宽发展面

大数据已经成为基础技术，现在最火的人工智能，物联网等就建立在大数据的基础上。

面向面试，提高认知深度，拓宽知识广度，增加面试筹码，提高薪资。

3.3 大数据相关技术

海量数据获取
爬虫（分析别人家的事）：Python，java…

日志（分析自己的事）：log4j、flume（数据的收集聚集加载）

历史数据（分析以前的事）：mysql、oracle、ETL（数据的提取转化加载）hdfs、

实时数据（分析现在的事）:hbase、spark、flink

3.4 海量数据存储

HDFS（Hive、Hbase、Spark依赖存储都是HDFS）Hadoop distributed file system

S3（亚马逊）

NFS(sun公司)

3.5 海量数据清洗

数据清洗没有我们想的那么复杂，方式有很多：

过程中可以用代码直接清洗，flume可以清洗，Hive可以清洗，flink可以清洗。整个流程中几乎每个步骤都可以做到数据的清洗。

3.6 海量数据处理

离线数据处理：MapReduce（hadoop的一部分）、Hive（底层是MR，业界主流）、SparkSQL、FlinkDataSet

流式数据处理：Flink（全面高效）、Storm（速度快，亚秒级）、SparkStreaming（速度没有Storm快，但是吞吐量高）

4.集群环境准备

4.1准备虚拟机

克隆三个虚拟机hadoop01、hadoop02、hadoop03均为NAT模式，其中hadoop01内存设置为1G（16G内存以上建议设置为2G），hadoop02和hadoop03为512M。

注：虚拟机登录的用户名和密码都是root

请添加图片描述

4.2修改为静态IP

修改IP地址，将：

第一台hadoop01的虚拟机ip地址改为：192.168.65.101

第二台hadoop02的虚拟机ip地址改为：192.168.65.102

第三台hadoop03的虚拟机ip地址改为：192.168.65.103

4.2.1配置文件

cd /etc/sysconfig/network-scripts   #进入网络配置目录
 
dir ifcfg*                         #找到网卡配置文件
 
ifcfg-ens33                         #找到版本最新的文件并修改
 
vim ifcfg-ens33
 
或者
 
vim /etc/sysconfig/network-scripts/ifcfg-ens33

4.2.2配置文件内容

注意不要写注释部分

TYPE=Ethernet
 
BOOTPROTO=static                              #改成static，针对NAT
 
NAME=eno16777736
 
UUID=4cc9c89b-cf9e-4847-b9ea-ac713baf4cc8
 
DEVICE=eno16777736
 
DNS1=114.114.114.114     #和网关相同
 
ONBOOT=yes               #开机启动此网卡
 
IPADDR=192.168.65.101    #固定IP地址
 
NETMASK=255.255.255.0    #子网掩码
 
GATEWAY=192.168.65.2     #网关和NAT自动配置的相同，不同则无法登录

4.2.3重启网络

以下两种方式任选其一

service network restart   #重启网络
 
systemctl restart network.service   #重启网络centos7

4.2.4查看IP

ip addr                  #查看IP地址 ip add

4.3mobaxTerm的使用

登录成功后，弹出对话框点yes 保存密码。

补充：mobaxTerm远程连接慢的问题

在使用shell连接虚拟机时连接等待时间太长，ssh的服务端在连接时会自动检测dns环境是否一致导致的，修改为不检测即可。

1、打开sshd服务的配置文件
vim /etc/ssh/sshd_config
把UseDNS yes改为UseDNS no（如果没有，自行编写在文件末尾加入）
2、重启sshd服务
systemctl restart sshd.service 或者 /etc/init.d/sshd restart

4.4关闭防火墙

systemctl stop firewalld.service        #关闭防火墙服务
 
systemctl disable firewalld.service     #禁止防火墙开启启动
 
 
systemctl restart firewalld.service      #重启防火墙使配置生效

systemctl enable firewalld.service       #设置防火墙开机启动

检查防火墙状态

[root@hadoop01 ~]# firewall-cmd --state		#检查防火墙状态
false							#返回值，未运行

4.5修改主机名

vi /etc/hostname

4.6修改hosts文件

vi /etc/hosts

在配置文件中增加ip地址映射

192.168.65.101 hadoop01
 
192.168.65.102 hadoop02
 
192.168.65.103 hadoop03

4.7三台机器重启

reboot

4.8设置免密登录

4.8.1三台机器生成公钥与私钥

ssh-keygen

执行该命令之后，按下三个回车即可

请添加图片描述

4.8.2拷贝公钥到同一台机器

三台机器执行命令：

ssh-copy-id hadoop01

4.8.3复制第一台机器的认证到其他机器

将第一台机器的公钥拷贝到其他机器上

在第一台机器上面执行以下命令

scp /root/.ssh/authorized_keys hadoop02:/root/.ssh
scp /root/.ssh/authorized_keys hadoop03:/root/.ssh

4.8.4测试

在hadoop01上进行远程登录测试

ssh hadoop02

不需要输入密码直接进入说明成功，exit退出<

最低0.47元/天解锁文章