2022年秋期学习《数据清洗预处理》学期总结

Hadoop大数据技术课程总结

一、Linux基础

  • 由于在家上网课,无法使用学校给我们配置的私有云,必须在自己的电脑上安装配置虚拟机环境。

(一)安装VMWare Workstation的过程

  1. 获取安装程序
  2. 进入安装向导
  3. 按提示完成安装

(二)虚拟网络编辑器

  1. 启动虚拟网络编辑器
  2. 启动虚拟网络编辑器
  3. 更改网络配置
  4. 查看DHCP设置
  5. 查看NAT设置

(三)在VMWare上安装CentOS 7

  • CentOS(Community Enterprise Operating System)是Linux发布版之一,它是来自于Red Hat Enterprise Linux依照开放源代码规定发布的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定性的服务器以CentOS替代商业版的Red Hat Enterprise Linux使用。两者的不同,在于CentOS并不包含封闭源代码软件。CentOS 完全遵守 Red Hat 的再发行政策,并且致力与上游产品在功能上完全兼容。CentOS 对组件的修改主要是去除 Red Hat 的商标及美工图。
  • 下载CentOS 7镜像文件:https://mirrors.aliyun.com/centos/7/isos/x86_64/
  1. 启动新建虚拟机向导
  2. 安装客户机操作系统
  3. 虚拟机命名,设置保存位置
  4. 指定磁盘容量
  5. 按照配置创建虚拟机
  6. 安装CentOS 7

(四)启动虚拟机

  1. 登录虚拟机
  2. 查看IP地址
  3. 能否PING通外网

(五)配置静态IP地址

  1. 修改网卡配置文件
  2. 重启网络服务
  3. 重启虚拟机
  4. 查看修改后的IP地址
  5. 测试虚拟机能否Ping通外网

(六)测试宿主机与虚拟机能否相互通信

  1. 测试宿主机能否ping通虚拟机
  2. 测试虚拟机能否ping通宿主机

(七)利用FinalShell访问虚拟机

  • FinalShell是一款专业优秀、功能强大且简单易用的网络服务管理软件。FinalShell作为一款远程终端模拟软件,其基于Java开发,代替了老款软件的使用,能让用户在终端传输时更便捷。shell和sftp能同屏显示在FinalShell上,同步切换。FinalShell还带有命令自动提示。
  • 下载链接:百度网盘 请输入提取码 提取码:fiaa(FinalShell下载链接)
  1. 下载FinalShell
  2. 安装FinalShell
  3. 启动FinalShell
  4. 创建SSH连接

(八)设置虚拟机主机名

  • 按组合键Ctrl + L可以清屏,相当于执行clear命令
  1. 查看虚拟机的主机名
  2. 修改虚拟机静态主机名

(九)做IP地址与主机名的映射

  1. 修改域名映射文件
  2. 宿主机通过虚拟机主机名来ping虚拟机

二、在OpenStack私有云上安装配制虚拟机

一、登录大数据实训云

二、创建网络
三、创建路由
四、添加接口四、
五、创建端口
六、添加安全组规则
七、创建实例(一) 实例规划
(二) 创建实例 - ied
(三) 创建实例 - master、slave1与slave2
(四)创建虚拟机 - ubuntu
八、本机利用FinalShell连接虚拟机
(一) 连接虚拟机 - ied
(二) 连接其它虚拟机
九、在ubuntu虚拟机通过FinalShell连接虚拟机
(一)本机远程桌面连接ubuntu
(二)利用FinalShell连接虚拟机
1、连接虚拟机ied
2、连接其它虚拟机
十、配置虚拟机
(一) 看IP地址
(二) 配置主机名
(三)配置IP地址与主机名映射
(四) 虚拟机ping外网

三、Linux用户操作

(一) 用户账号管理

  1. 用户与用户组文件
  2. 用户账号管理工作

(二) 用户操作

1、切换用户

(1) 语法格式
(2) 切换到普通用户
(3) 切换到root用户
(4) 查看环境变量

2、查看用户
(1) 查看全部用户
(2) 系统内置用户与新增用户

(3) 查看不能登录的伪用户

(4) 查看指定某个用户信息

3、添加用户

(1) 语法格式

(2) 选项说明

(3) 注意事项

(4) 案例演示任务: 创建用户mike
4、修改用户
(1) 法格式

(2) 选说明

(3) 案例演示任务: 修改用户mike
5、删除用户
(1) 法格式

(2) 选说明

(3) 案例演示任务: 强制彻底删除用户mike


(三) 用户组操作

1、增删改用户组

2、用户组里增删改用户

四、 Linux目录操作

(一) 常用权限操作

1、常用权限操作
(1) chgrp命令
(2) chown命令
(3) chmod命令

2、权限操作实战

任务1、创建文件,设置其用户组
任务2、修改文件的所有者
任务3、修改文件所有者与用户组
任务4、修改文件操作权限

(二)常用目录操作

1、常用目录操作
2、目录操作实战
任务1、获取命令帮助信息
任务2、查看当前目录
显示目录 (文件)任务3、
任务4、创建目录
任务5、切换目录
任务6、统计目录及文件空间占用情况
任务7、复制目录 (文件)
任务8、移动目录(文件)
任务9、删除目录(文件)

五、初始Hadoop

  1.  初探大数据
  2.  大数据应用场景
  3.  初探Hadoop世界

六、Hadoop集群构建

  1.  Hadoop安装准备
  2. Hadoop部署模式
  3.  Hadoop集群配置
  4. Hadoop集群测试

七、HDFS分布式文件系统

  1. HDFS基本概念
  2. HDFS架构和原理
  3. HDFS的Shell操作
  4. 使用Java API操作HDFS

HDFS基本命令

查看文件常用命令
hdfs dfs -ls path   #查看文件列表 
hdfs dfs -ls -R path   #递归查看文件列表 
hdfs dfs -du path   #查看path下的磁盘情况,单位字节

创建文件夹
hdfs dfs -mkdir path

创建文件
hdfs dfs -touchz path
hdfs dfs -touchz /user/iron/iron.txt   #该命令不可递归创建文件,即当该文件的上级目录不存在时无法创建该文件,如果重复创建会覆盖原有的内容

复制文件和目录
hdfs dfs -cp 源目录 目标目录
hdfs dfs -cp /user/iron /user/iron01    #该命令会将源目录的整个目录结构都复制到目标目录中
hdfs dfs -cp /user/iron/* /user/iron01   #该命令只会将源目录中的文件及其文件夹都复制到目标目录中

移动文件和目录
hdfs dfs -mv 源目录 目标目录
hdfs dfs -mv /user/iron /user/iron01
hdfs dfs -mv /user/aa.txt /user/bb.txt   #将/user/aa.txt文件重命名为/user/bb.txt

赋予权限
hdfs dfs -chmod [权限参数][拥有者][:[组]] path
hdfs dfs -chmod 777 /user/*    #该命令是将user目录下的所用文件及其文件夹(不包含子文件夹中的文件)赋予最高权限:读,写,执行 777表示该用户,该用户的同组用户,其他用户都具有最高权限

上传文件
hdfs dfs -put 源文件夹 目标文件夹
hdfs dfs -put /home/hadoop01/iron /user/iron01    #该命令上传Linux文件系统中iron整个文件夹 
hdfs dfs -put /home/hadoop01/iron/* /user/iron01    #该命令上传Linux文件系统中iron文件夹中的所有文件(不包括文件夹) 

下载文件
hdfs dfs -get 源文件夹 目标文件夹
hdfs dfs -get /user/iron01 /home/hadoop01/iron    #该命令下载hdfs文件系统中的iron01整个文件夹到Linux文件系统中 
hdfs dfs -get /user/iron01/* /home/hadoop01/iron    #该命令下载hdfs文件系统中的iron01整个文件夹到Linux文件系统中(不包含文件夹) 

查看文件内容
hadoop fs -cat path   #从头查看这个文件 
hadoop fs -tail path   #从尾部查看最后1K
hadoop fs -cat /userjzl/home/book/aa.txt   #查看/userjzl/home/book目录下文件aa.txt的内容(将-cat 换成-text效果一样)
hadoop fs -tail /userjzl/home/book/aa.txt

删除文件
hdfs dfs -rm 目标文件    #rm不可以删除文件夹
hdfs dfs -rm -R 目标文件   #递归删除(慎用)
hdfs dfs -rm /user/test.txt   #删除test.txt文件 
hdfs dfs -rm -R /user/testdir    #递归删除testdir文件夹
 

八、MapReduce分布式计算框架

  1. 初探MapReduce
  2.  MapReduce工作原理
  3. MapReduce编程组件
  4.  MapReduce运行模式
  5.  MR案例一倒排索
  6. MR案例数据去重
  7. MR案例TopN

九、ZooKeeper分布式协调服务

  1. 初识ZooKeeper
  2.  ZooKeeper数据模型
  3. ZooKeeper两种重要机制
  4. ZooKeeper分布式集群部署
  5. ZooKeeper的Shell操作
  6.  ZooKeeper的Java API操作
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值