
大数据
文章平均质量分 90
Congee小周
天津大学研究生,研究方向高性能计算,欢迎点赞关注与我交流!
展开
-
在集群中执行打包的程MapReduce序
一、程序的打包1.点击View——>Maven2.在Lifecycle -> package上右键,点击Run Maven Build3.Build Success后在target文件夹下会生成一个jar包,将之上传至服务器即可部署二、集群的测试1.启动集群2.把jar包和输入文件放在linux下某个位置3.在hdfs中上传输入文件[root@hadoop101 hadoop-2.7.3]# hdfs dfs -mkdir -p /user/at原创 2020-12-02 18:54:40 · 296 阅读 · 0 评论 -
Hadoop中MapReduce程序的本地IDEA测试(及org.apache.hadoop.io.nativeio问题)
一、本地测试在IDEA中进行本地测试,案例有3个类。(其实MapReduce程序都是这3个类:Mapper、Reducer、Driver)1.run——>Edit Configurations2.Create a new configuration3.修改以下内容注意:修改Program arguments时,前面是输入数据的路径,后面是输出数据的路径,输出数据的路径是一个文件夹,这个文件夹不能在程序执行前被创建好,否则会报错4.在Driver类中运行程序当在D原创 2020-12-02 16:46:44 · 2057 阅读 · 0 评论 -
Spark完全分布式搭建(On Yarn)
一、修改配置文件1.yarn-site.xml[root@hadoop101 ~]# cd /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true --> <property> <name>yarn.nodemanager.pmem-check-enabled</nam原创 2020-11-24 00:18:47 · 2820 阅读 · 0 评论 -
Hadoop之编写集群分发脚本
目录1.scp 安全拷贝2.rsync远程同步工具3.xsync集群分发脚本(名字可以随便起)我们在搭建Hadoop完全分布式集群的过程中,要修改很多配置文件或者是安装很多软件,在这个过程中,如果集群数量很大,我们不能把每个节点都编辑一遍,这样既费时又容易出错。因此本文将讲解一个集群分发脚本,只要在一个节点编辑好,再通过分发脚本发送给其他节点就可以了。(注意:这里因为xsync脚本代码的问题,我把主机名hadoop01、hadoop03和hadoop04分别改成hadoop101、ha.原创 2020-11-23 22:16:42 · 758 阅读 · 0 评论 -
Linux下Hadoop集群设置SSH免密登录
目录1.检查SSH2.进入.ssh文件3.生成公钥和私钥4.在hadoop01上配置各个节点的免密登录5.在hadoop03上配置各个节点的免密登录1.检查SSH输入如下命令,以检查每个虚拟机上是否安装了ssh和启动了ssh服务 。rpm -qa | grep ssh如图所示则表示已经安装了 。如果没有安装,输入以下命令:yum -y install openssh openssh-server openssh-clients2.进入.ssh文件在原创 2020-11-23 14:03:31 · 1797 阅读 · 2 评论 -
Linux下CentOS搭建Hadoop分布式全过程(史上超全大合集!)
目录一、VMware下安装有图形界面的CentOS7系统二、Linux下JDK的安装三、Linux下防火墙的关闭与开启四、window下配置hosts文件,使虚拟机主机名与IP地址映射五、Hadoop2.7.3搭建伪分布式集群六、Hadoop2.7.3配置Yarn资源管理器七、Hadoop配置Web端历史服务器八、Hadoop配置Web端日志九、Linux下虚拟机的克隆(CentOS为例)十、CentOS下搭建Hadoop完全分布式十一、Hadoop完全分布式的集原创 2020-11-23 13:32:03 · 786 阅读 · 0 评论 -
Hadoop完全分布式的集群启动与停止
1.配置slaves(每个节点都这么做)[root@hadoop01 ~]# vim /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/slaves默认是localhost,把它删掉,写上自己的节点。然后不要有空格或者空行!!hadoop01hadoop03hadoop042.退出进程(由于我上篇文章单节点启动,没有退出,因此我这里退出一下,没有按照我的步骤的可忽略不计)hadoop01:[root@hadoop01 hadoop-原创 2020-11-23 01:11:38 · 1997 阅读 · 0 评论 -
CentOS下Hadoop完全分布式集群配置与单点启动测试
一、配置集群 hadoop01 hadoop03 hadoop04 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager Resou...原创 2020-11-22 22:31:53 · 412 阅读 · 1 评论 -
Linux下虚拟机的克隆(CentOS为例)
本文中,将讲解如何克隆一个虚拟机,及在克隆的过程中需要的注意事项,此篇也为了后续搭建完整的Hadoop+Spark集群做准备原创 2020-11-22 19:48:53 · 6134 阅读 · 1 评论 -
VMware下安装有图形界面的CentOS7系统(最新版特别全,必看!!)
注意事项:1.本篇将在VMware15.5Pro下安装有图形界面的CentOS7.4系统,桌面采用了GNOME桌面,特别全,初学者安装必看文章!!2.在之前我还写过一篇无图形界面的安装虚拟机的步骤,有兴趣的可以去翻一下我之前的文章。3.我的资源下载中有word版完整的安装步骤,有需要的可以去下载。4.采坑不易,希望走过路过点个关注和赞!5.如果需要安装包,请在评论区给我留言,谢谢!安装步骤如下:1.点击“创建新的虚拟机”。 ...原创 2020-10-28 17:28:50 · 2533 阅读 · 0 评论 -
Hadoop2.7.3配置Yarn资源管理器
接着上一篇文章(搭建伪分布式),本文讲述如何配置Yarn,并对其进行功能和性能测试。执行步骤1.配置集群(a)配置yarn-env.sh配置一下JAVA_HOME (b)配置yarn-site.xml...原创 2020-10-18 22:19:32 · 678 阅读 · 0 评论 -
Hadoop2.7.3搭建伪分布式集群
修改core-site.xml文件<!-- 指定HDFS中NameNode的地址 --><property><name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value></property><!-- 指定Hadoop运行时产生文件的存储目录 --><property> <name>had原创 2020-10-18 12:47:31 · 686 阅读 · 0 评论 -
Linux下防火墙的关闭与开启
CentOS7 的防火墙配置跟以前版本有很大区别,CentOS7这个版本的防火墙默认使用的是firewall,与之前的版本使用iptables不一样。1.查看防火墙状态firewall-cmd --state 2.停止firewallsystemctl stop firewalld.service ...原创 2020-10-12 18:32:22 · 584 阅读 · 0 评论 -
window下配置hosts文件,使虚拟机主机名与IP地址映射
1.点击此路径:C:\Windows\System32\drivers\etc 2.找到hosts并修改因为不能直接打开hosts进行更改,所以将hosts文件复制到桌面(比较方便),然后打开hosts文件,添加内容。 3.然后将写好的hosts文件复制到原先的路径下,替换原文件。4.尝试ping虚拟机的主机名,成功 ...原创 2020-10-11 21:42:26 · 37554 阅读 · 2 评论 -
Linux卸载系统自带Openjdk,并安装新的jdk
注意:本文使用的是VMware15.5Pro安装的linux CentOS7.4系统,安装的jdk版本是 jdk1.8.0_2411.先查询系统自带的JDK版本,使用语句:rpm -qa|grep java 发现如下目录,要删除这里第1、3、6、7行java-1.8.0-openjdk-headless-1.8.0.131-11.b12.el7.x86_64python-javapackages-3.4.1-11.el7.noarchjava-1.7.0-openjdk-1.7.0...原创 2020-10-11 20:52:54 · 1061 阅读 · 0 评论 -
Win10环境下的IDEA2019.3配置Spark环境的两种方法
IDEA是一个非常完美的编译器,在IDEA搭建本地Spark环境需要提前配置好Scala和Java环境(看我之前的文章,有详细介绍)下面我将介绍两种方法搭建Spark环境。方法一:更改pom.xml,添加Maven依赖(1)首先,需要创建一个maven项目:File—New—Project (2)检测JDK环境是否正确,并创建 (3...原创 2020-03-03 20:13:26 · 1712 阅读 · 0 评论 -
IDEA安装配置Scala并编写HelloWord程序
由于本篇文章是为了在Windows下的IDEA搭建Spark环境做准备,因此Scala的版本要与Spark相匹配(这里Spark我用的是2.4.4,Scala用的是2.12.10)一、首先先在Windows环境下配置JDK和Scala的环境变量,这里不再一一阐述,很简单的。二、安装IDEA(可参考我安装IDEA的文章)三、在IDEA中安装Scala插件这里分为手动安装和自动安装...原创 2020-02-29 22:41:52 · 15471 阅读 · 0 评论 -
CentOS7.4下Spark集群的搭建
一、Spark有三种集群搭建方式:1.Standalone:独立模式,Spark原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用Standalone可以很方便地搭建一个集群2.Apache Mesos:一个强大的分布式资源管理框架,它允许多种不同的框架部署在其上,包括yarn3.HadoopYARN:统一的资源管理机制,在上面可以运行多...原创 2020-02-03 14:33:21 · 1033 阅读 · 0 评论 -
CentOS7.4环境下配置Scala-2.13.1
为了配置Spark环境,我们首先来配置Scala环境,Scala的环境配置很简单一、去官网下载scala-2.13.1https://www.scala-lang.org/download/,找到scala-2.13.1.tgz二、通过xshell解压,步骤和安装jdk的时候一样1.创建一个文件夹,为了方便整理mkdir /usr/local/scala2.传输、移动、解...原创 2020-02-03 14:11:34 · 492 阅读 · 0 评论 -
CentOS7.4环境下搭建Hadoop2.8.5伪分布集群
这是一篇碰壁2天的难产文章,首先强调一点,本篇文章是针对Hadoop2.x环境的搭建,并不适应于Hadoop3.x(因为我一直用3.x版本试过,一直Error,最后我下了2.8.5版本) 图片有不准的地方,以文字代码啊为主,图片只是演示过程一、下载合适的Hadoop并解压,安装到linux下1.官网地址:https://hadoop.apache.org/下载步骤如...原创 2020-01-31 01:34:16 · 782 阅读 · 0 评论 -
在虚拟机VMware下的CentOS7环境安装jdk1.8
今天我们开启虚拟机小白之路的第二篇,如何在linux下搭建jdk环境。一、首先,我们需要下载一个传输工具,XShell。它的作用是在windows和linux之前传输文件。(这里还有一个软件是Xftp,建议2个都下载,2个各有各的用处,而且可以选择下载家庭版,这个版本是免费的)。下载网址:https://www.netsarang.com/需要用邮箱注册,然后会将下载连接发送到邮箱。也可以...原创 2020-01-19 23:15:37 · 2338 阅读 · 0 评论 -
VMware安装、Linux下CentOS7的配置及网络环境的配置(最新版特别全)
本文将详细阐述VMware安装、配置linux下的CentOS7及配置网络环境。如果有不懂的地方,欢迎大家私信我,这是我自己最近亲身实践摸索出来的,真的非常非常全面了!一、VMware的下载与安装1.我下载的是当前最新版的VMware15.5.1,下面是下载链接:https://www.vmware.com/products/workstation-pro/workstation-...原创 2020-08-04 11:13:27 · 12741 阅读 · 6 评论