
hadoop
G_scsd
决胜于千里之外,运筹于帷幄之中。
展开
-
hadoop上搭建hive
一、hive压缩包链接:https://pan.baidu.com/s/1RyJ2I4wUlVxgaGJXtIsBNw提取码:rrzz复制这段内容后打开百度网盘手机App,操作更方便哦二、hive配置1. 上传hive压缩包解 压: tar -xvf apache-hive-1.2.2-bin.tar.gz移动到 : mv apache-hive-1.2.2-bin /usr/local/hive2. 配置环境变量vi /etc/prof...原创 2020-05-17 16:08:53 · 344 阅读 · 0 评论 -
window下搭建虚拟机和hadoop集群
一、windows下搭建虚拟机 1. 创建虚拟机01 2. 创建虚拟机02 3. 创建虚拟机03 4. 创建虚拟04 5.创建虚拟05 6. 创建虚拟机06 (根据自己的需求选择配置,我把...原创 2020-05-16 16:04:51 · 843 阅读 · 0 评论 -
hadoop调度器
一、引言Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负责整个集群中包括内存、CPU等资源的管理;ApplicationMaster负责应用程序在整个生命周期的任务调度;NodeManager负责本节点上资源的供给和隔离;Container可以抽象...转载 2018-05-01 22:55:51 · 497 阅读 · 0 评论 -
Hadoop运行原理详解
Hadoop 2.6 MapReduce运行原理详解 市面上的hadoop权威指南一类的都是老版本的书籍了,索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习。 我们通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节: 1、向client端提交MapReduce job. 2、随后yarn的Res...转载 2018-04-24 11:01:15 · 5617 阅读 · 0 评论 -
hadoop伪分布式集群ssh免密码登录
来配置我们的ssh无密码登录到slave1和slave2上1. 首先检查每个虚拟机是否安装了ssh和启动了sshd服务如果没有安装的话要执行以下代码这个命令要在root下运行,因为hadoop用户还没有这个权限这个命令是安装ssh的客户端和服务端2. 然后我们切换到hadoop用户下,运行ssh localhost命令,这个命令会生成 .ssh隐藏文件夹,遇到提示就输入yes3. 我们要进...原创 2018-03-29 14:24:15 · 3542 阅读 · 0 评论 -
安装hadoop及其配置和静态网络配置
1. 首先导入hadoop的压缩包,并解压到hadoop用户下的一个叫opt目录中,并把环境配置好,先进入到hadoop用户下面的opt文件中,opt文件中存放着我们解压了的hadoop-2.7.5我们进入这个路径,当前路径为这时候我们就在该路径下配置我们的环境变量首先定义一个变量,将我们这个路径存起来,要不然手打的话很麻烦然后我们来配置HADOOP_HOME,这个是告诉系统hadoop文件的主体...原创 2018-03-29 13:51:42 · 1720 阅读 · 0 评论 -
使用hadoop的前期工作之安装jbk
我们在使用hadoop之前都要先导入java的jbk压缩包,我使用的版本是jbk-8u152-linux-x64.tar.gz,我们先切换到root用户,使用xshell中的文件传输,然后xshell会自动调用xftp,将该压缩包导入到hadoop用户下面,我们在切换回hadoop用户将它解压到我们在hadoop用户下的opt文件夹中,这里一定要看清,opt文件夹所属的文件所有者和所在的用户组一定...原创 2018-03-29 10:20:01 · 780 阅读 · 0 评论 -
HFDS文件目录
HDFS的文件目录图分析:从上图可以看出,HDFS的文件目录主要由NameNode、SecondaryNameNode和DataNode组成,而NameNode和DataNode之间由心跳机制通信。注:HDFS(Hadoop Distributed File System)默认的存储单位是128M的数据块。 可以执行命令vim /home/qingaolei/hadoop/hadoop-2.8.0...转载 2018-04-16 20:36:25 · 3039 阅读 · 0 评论 -
hadoop伪集群之namenode和datanode未启动修改方法
今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系统状态admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -reportConfigured Capacity: 0 (0 KB)Present Capacity:...转载 2018-04-10 11:28:04 · 621 阅读 · 0 评论 -
HDFS文件上传流程
HDFS运行流程图(图是盗的) 首先用户即客户端想要上传文件,就先要给namenode发个请求,告诉它说我要上传文件了(即写数据),然后namenode会返回一个响应,这个响应是namenode根据自身情况,比如会先查一下namenode里面还能存数据吗?能存多少?有几个datanode能存?(心跳信息)然后返回一个可以存储的节点列表,意思是这些里面能存,但不是能存的datanode全部...原创 2018-04-15 15:34:22 · 19406 阅读 · 0 评论 -
如何安装并使用pyspark
1. Anaconda的安装 (1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp上传后我们来运行这个文件,但我在运行过程中它提示我要安装一个bzip2的东西,我这里就先写一下吧 (2)安装bzip2 安装软件要切换到root用户下才能够使用,因为普通用户没这个权限 在ro...原创 2018-04-02 22:32:37 · 7630 阅读 · 1 评论 -
简单使用hadoop
我们在前面搭建好hadoop后,接下来就要使用该hadoop了,但是在hadoop下面什么都没有,连根目录都没有,这都要我们来创建 首先使用 hadoop fs -mkdir -p /user/gscsd我们在这里使用-p是逐步创建,先创建根目录/,然后在创建user目录,user目录下又创建了gscsd目录我们来查看下,看到以下这个就说明我们已经创建好目录了然后我们再接着上...原创 2018-04-02 21:35:12 · 609 阅读 · 0 评论 -
hadoop中各个节点的功能及HDFS文件上传流程图
Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元(块),并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(H...原创 2018-04-15 13:09:35 · 6340 阅读 · 0 评论