- 博客(28)
- 收藏
- 关注
原创 Yarn模式(重点)-运行流程1
Yarn模式(重点)-运行流程1spark客户端直接连接yarn,不需要额外使用spark集群spark中有yarn-client模式和yarn-cluster模式2.1 两种模式的区别:Driver程序运行的节点不同2.2 yarn-client模式:Driver运行在客户端上,此模式适用于调试,并且可以直接查看结果2.3 yarn-cluster模式:Driver运行在NodeManager的ApplicationMaster上,此模式适用于生产环境...
2021-05-07 22:46:24
261
2
原创 Spark中WordCount案例实操(linux上直接运行)下篇
6.打包jar包6.1 点击Maven --> package 生成jar包6.2 选择不带有依赖的jar包,因为linux系统中有相关环境,如果没有,则选择带有依赖的jar包6.3 将jar包上传到linux系统上(我上传到了/opt/module/spark-yarn/WordCount.jar)7. 编译spark代码进行运行7.1模板bin/spark-submit –calss idea中的含有main方法的完整名字 –master 选择运行模式 –deploy-mode
2021-05-07 22:43:47
346
原创 Spark中WordCount案例实操(linux上直接运行)上篇
编写程序(linux上运行)1.新建一个maven工程1.1 建好后,在项目上右击 --> Add Framework Support --> 勾选scala1.2 在src/main下新建一个directory (scala)–> 点击scala,右键 --> Mark Directory AS --> Sources Root2.日志文件配置(设置只打印Error级别的日志)2.1 在src/main/resources下新建 --> File(名为log4
2021-04-23 22:30:44
337
原创 Spark中WordCount案例实操(windows上直接运行)
编写程序(windows上直接运行)1.新建一个maven工程1.1 建好后,在项目上右击 --> Add Framework Support --> 勾选scala1.2 在src/main下新建一个directory (scala)–> 点击scala,右键 --> Mark Directory AS --> Sources Root2.日志文件配置(设置只打印Error级别的日志)2.1 在src/main/resources下新建 --> File(名为
2021-04-23 22:20:33
246
原创 Spark中的 官方求PI案例
官方求PI案例1.进入/opt/module/spark-standalone2.开启spark集群,sbin/start-all.sh3.写案例bin/spark-submit \--class org.apache.spark.examples.SparkPi \ 【spark程序中要执行程序的主类】--master spark://hadoop102:7077 \ 【spark运行模式:1.Local模式(local[*]),2.Standalone模式:master所在节点及端口号(s
2021-04-22 21:17:15
1519
原创 Spark中的Driver和Executor
Driver和Executor任务的管理者1.Driver(线程)和Executor(计算对象)是spark中的临时程序,只有执行程序时,才会启动,程序执行完,即死亡2.Driver2.1 Spark shell 预加载的一个叫做sc的Spark Context对象2.2 将用户程序转换成作业(Job)2.3负责跟踪Executor的运行状况2.4 UI展示应用运行状况2.5 为执行器节点调度任务3.Executor3.1 负责执行spark的具体任务...
2021-04-22 21:14:15
1094
原创 Spark中的Master和Worker
Master和Worker集群资源管理1.Master是spark中资源调度系统的Leader,管理整个集群的资源信息,类似于yarn中的ResourceManager2.Worker是spark中资源调度系统的slave,管理所在结点的资源信息,类似于yarn中的NodeManager3.在standalone模式下,Master和Worker是必须启动的...
2021-04-21 22:27:20
2328
原创 Spark中Yarn模式(重点)--运行流程
Spark中Yarn模式(重点)–运行流程1.spark客户端直接连接yarn,不需要额外使用spark集群spark中有yarn-client模式和yarn-cluster模式2.1 两种模式的区别:Driver程序运行的节点不同2.2 yarn-client模式:Driver运行在客户端上,此模式适用于调试,并且可以直接查看结果2.3 yarn-cluster模式:Driver运行在NodeManager的ApplicationMaster上,此模式适用于生产环境3.yarn-clien
2021-04-21 22:24:00
397
原创 最易懂的MapReduce工作流程详解!
MapReduce工作流程原理详解(1)输入数据(Input):客户端submit()(客户端submit()前就已经将数据进行逻辑上的规划,也就是切片了),客户端将数据信息(job.split , wc.jar等)提交给Yarn的ResourceManager进行处理,ResourceManager启动NodeManager和ApplicationMaster,ApplicationMaster根据接收到的job.split信息,开启与切片个数相同个数的MapTask,MapTask启动后,用Input
2021-04-19 23:33:37
517
1
原创 hadoop集群安全模式(查看,进入,离开,等待安全模式状态)
集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。(1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态)(2)bin/hdfs dfsadmin -safemode enter (功能描述:进入安全模式状态)(3)bin/hdfs dfsadmin -safemode leave (功能描述:离开安全模式状态)(4)bin/hdfs dfsadmin -safemode wait (功能描述:等待安全模式状态
2021-04-14 19:30:22
1027
1
原创 虚拟机安装之jdk的安装和部署
1、卸载现有JDK(3台节点)[xiaobuding@hadoop102 opt]# sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps[xiaobuding@hadoop103 opt]# sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps[xiaobuding@hadoop104 opt]# sudo rpm -qa | grep -i java | xa
2021-04-14 00:10:56
295
1
原创 虚拟机安装之克隆三台虚拟机3( SSH无密登录配置)
3、 SSH无密登录配置1、配置ssh(1)ssh连接时出现Host key verification failed的解决方法[xiaobuding@hadoop102 ~]$ ssh hadoop103出现:The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established.RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:a
2021-04-13 23:58:04
510
1
原创 虚拟机安装之克隆三台虚拟机2(配置xsync集群分发脚本)
2、配置xsync集群分发脚本(1)在/home/xiaobuding目录下创建bin文件夹[xiaobuding@hadoop102 ~]$ mkdir bin(2)在/home/xiaobuding/bin目录下创建xsync文件,以便全局调用[xiaobuding@hadoop102 ~]$ cd /home/xiaobuding/bin[xiaobuding@hadoop102 ~]$ vim xsync在该文件中编写如下代码#!/bin/bash#1. 判断参数个数if [
2021-04-13 00:13:28
431
原创 虚拟机安装之克隆三台虚拟机1
1、利用模板机hadoop_base,克隆三台虚拟机:hadoop102 hadoop103 hadoop104(1)选中hadoop_base — 右键 — 管理 — 克隆 — 点击下一步 — 点击下一步(页面上选择:虚拟机中的当前状态) — 选择创建完整克隆,点击下一步 — 虚拟机名称(hadoop102),位置(放在模板机同目录即可,我的是在:D:\VM15\hadoop102),点击完成 — 点击关闭(2)克隆完成后,开启虚拟机 — 登录root账户(3)修改克隆虚拟机的静态IP[root@
2021-04-13 00:08:15
976
2
原创 十分钟学会hadoop史上最详细安装教程!
1、集群部署规划注意:NameNode和SecondaryNameNode不要安装在同一台服务器注意:ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。2、将hadoop安装包从Xftp上传到/opt/software3、解压安装文件到/opt/module下面[xiaobuding@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/4、配置
2021-04-06 18:19:23
860
2
原创 虚拟机安装---模板机准备9(测试安装好的模板机)
9.1、重新进入Xshell(1)将原来建立的hadoop_base的会话删掉,重建一个(2)文件 — 新建 — 名称(写hadoop_base)— 主机(写hadoop100,因为在windows中修改了映射文件) — 点击确定 — 点击连接 — 点击接收并保存 — 输入用户名(xiaobuding,再不用root了) — 输入密码9.2、测试安装好的模板机(1)测试命令是否好[xiaobuding@hadoop100 ~]# ifconfigPING www.baidu.com (14.2
2021-04-05 23:53:18
311
原创 虚拟机安装---模板机准备8(修改windows的主机映射文件(hosts文件))
8、修改windows的主机映射文件(hosts文件)(1)如果操作系统是window7,可以直接修改(a)进入C:\Windows\System32\drivers\etc路径(b)打开hosts文件并添加如下内容,然后保存192.168.81.100 hadoop100192.168.81.101 hadoop101192.168.81.102 hadoop102192.168.81.103 hadoop103192.168.81.104 hadoop104192.168.81.105
2021-04-05 23:40:45
647
1
原创 虚拟机安装---模板机准备7(在/opt下创建文件夹)
7.1在/opt目录下创建文件夹,并修改所属主和所属组(1)在/opt目录下创建module、software文件夹[root@hadoop100 ~]# mkdir /opt/module[root@hadoop100 ~]# mkdir /opt/software(2)修改module、software文件夹的所有者和所属组均为xiaobuding用户 [root@hadoop100 ~]# chown xiaobuding:xiaobuding /opt/module [root@ha
2021-04-05 23:37:20
4911
原创 虚拟机安装---模板机准备6(创建一个普通用户)
6、创建xiaobuding用户,并让他具有root权限(1)创建xiaobuding用户,并修改xiaobuding用户的密码[root@hadoop100 ~]# useradd xiaobuding[root@hadoop100 ~]# passwd xiaobuding(2)配置xiaobuding用户具有root权限,方便后期加sudo执行root权限的命令[root@hadoop100 ~]# vim /etc/sudoers修改/etc/sudoers文件,找到下面一行(91行
2021-04-04 17:10:10
1493
1
原创 虚拟机安装---模板机准备5(修改hosts映射文件)
5、修改hosts映射文件(1)进入文件[root@hadoop100 ~]# vim /etc/hosts(2)添加如下内容192.168.81.100 hadoop100192.168.81.101 hadoop101192.168.81.102 hadoop102192.168.81.103 hadoop103192.168.81.104 hadoop104192.168.81.105 hadoop105192.168.81.106 hadoop106192.168.81.10
2021-04-04 17:02:52
339
原创 虚拟机安装---模板机准备4(修改hostname以及关闭防火墙)
4.1修改hostname(1)修改文件[root@hadoop100 ~]# vim /etc/hostname(2)修改为 hadoop100 4.2关闭防火墙(1)关闭防火墙,关闭防火墙开机自启[root@hadoop100 ~]# systemctl stop firewalld[root@hadoop100 ~]# systemctl disable firewalld...
2021-04-04 16:59:09
196
原创 我为什么写博客
学习大数据已经很久了,其实很久之前就打算写博客了,奈何一直很忙,所以没有正式开写。这两年感觉大数据发展异常迅猛,肉眼可见大数据涉及的技术越来越多,大数据生态愈发成熟,于是今天决定了,要开始写博客了。一来,回顾总结这些年来学到的技术,算是自己回顾和总结二来,以博客形式发布,可以帮助刚踏入大数据的小白,也算是开源精神叭三来,希望可以借助博客的形式帮助更多小白学习,也算是我这种大数据老油条为社会做的贡献如有不足之处希望大家指正...
2021-04-03 17:08:16
110
原创 虚拟机安装---模板机准备3(修改ip)
3、修改ip(1)修改模板机ip[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33(2)进入后修改修改值:BOOTPROTO=staticONBOOT=yes增加属性:IPADDR=192.168.81.100GATEWAY=192.168.81.2DNS1=192.168.81.2【第三位81,是由自己电脑的ip决定】(3)查看Linux虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->
2021-04-03 16:56:12
212
原创 虚拟机安装---模板机准备2(安装一些必要的软件)
2、安装一些必要的软件(1)在页面左边点击CD/DVD(IDE) - - -> 选择:使用ISO映像文件 - - -> 选择自己的linux镜像所在的位置(我的是linux7.5镜像:CentOS-7.5-x86_64-DVD-1804.iso) - - -> 点击确定(2)开启此虚拟机 - - -> 选择Install CentOS 7 - - -> 选择中文,继续 - - -> 点击日期和时间(把日期和时间地点修改正确) - - -> 键盘不用修改,不管他
2021-04-03 16:43:35
405
原创 虚拟机安装---模板机准备1(最小化安装)
**1、最小化安装**(1)打开VMware(2)文件 - - -> 新建虚拟机(3)直接点击下一步(页面上选择:自定义(高级)) - - -> 下一步(页面上选择:硬件兼容性(Workstation 15.x)) - - -> 下一步(页面上选择:稍后安装操作系统) - - -> 下一步(页面上选择:Linux(L),版本:CentOS 7 64位) - - -> 虚拟机名称(hadoop_base),位置选择D:\VM5\hadoop_base,下一步 - - -
2021-04-03 16:32:22
2637
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人