
Hadoop
屡傻不改
这个作者很懒,什么都没留下…
展开
-
分布式资源管理框架Yarn的工作机制(执行流程)
Yarn工作机制流程图Yarn工作机制详细介绍1、客户端向整个集群提交MapReduce作业,申请jobID2、ResourceManager给Client返回该job资源的提交路径(HDFS 路径)和作业ID3、Client发送jar包、切片信息和配置文件到指定的资源提交路径。4、Client提交完资源后,向ResourceManager申请执行作业5、ResourceManager收到Client的请求后,将该job添加到容量调度器(Resouce Scheduler)中6、调度器将任务原创 2020-12-15 10:56:29 · 253 阅读 · 0 评论 -
HDFS读写流程详细解读
HDFS读文件流程在这里插入图片描述读取文件过程简述:1、客户端向NameNode发起读数据请求;2、NameNode响应请求并告诉客户端要读的文件的数据块位置(存在哪个DataNode上);3、客户端到对应DataNode读取数据,当数据读取到达末端,关闭与这个DataNode的连接,并查找下一个数据块,直到文件数据全部读完;4、最后关闭输出流。读取文件过程详细解读:1、客户端调用FileSystem 实例的open 方法,获得这个文件对应的输入流InputStream。2、通过RPC原创 2020-12-15 10:42:00 · 2246 阅读 · 1 评论 -
Hadoop和Hive服务启动脚本
Hadoop 启动脚本执行脚本时需传入一个参数参数为:start、stop、restart、statusstart:启动 hadoop 所有服务stop:关闭 hadoop 所有服务restart:重启 hadoop 所有服务status:查看 hadoop 所有服务状态#!/bin/bash HADOOP_SBIN="/opt/hadoop/sbin"case $1 in start) $HADOOP_SBIN/start-dfs.sh原创 2020-12-15 10:19:21 · 267 阅读 · 0 评论 -
IDEA中使用MapReduce实现join的两种方法
使用MapReduce实现join操作1、两种方法:MapJoin和ReduceJoin2、MapJoin和ReduceJoin的区别:MapJoin是会利用cachefile接入数据,与map端接入的数据进行逻辑关联,不需要写reducer(不代表没有shuffle和reduce的过程)ReduceJoin是map端只完成文件合并,利用相同的关联条件(id)作为key,输出到reduce端,reduce端根据key聚合达到关联的效果3、以下两种实现方法所需要的数据文件:custo原创 2020-09-15 20:18:44 · 397 阅读 · 1 评论 -
IDEA中使用MapReduce实现wordcount和join
在idea中实现wordcount词频统计需求分析:1.Map过程:并行读取文本,对读取的单词进行map操作,每个词都以<key,value>形式生成2.Reduce操作是对map的结果进行排序合并最后得出词频1.添加maven依赖注意hadoop-core依赖与hadoop-auth冲突,要求先注释掉。<dependencies> <dependency> <groupId>junit</groupId>原创 2020-09-11 09:38:58 · 439 阅读 · 1 评论 -
MapReduce原理及编程
MapReduce原理及编程MapReduce简介MapReduce概念MapReduce的设计思想MapReduce特点MapReduce实现WordCount实现步骤图解MapReduce执行过程Hadoop V1 MR引擎Hadoop V2 YARNHadoop及YARN架构Hadoop2 MR在Yarn上运行流程InputSplit(输入分片)Shuffle阶段Key&Value类型MapReduce编程模型InputFormat接口Combiner类Partitioner类OutputFo原创 2020-09-15 19:35:32 · 445 阅读 · 1 评论 -
分布式资源调度框架YARN
分布式资源调度框架YARN启动JobHistoryServerYARN概念YARN的由来YARN概述YARN基本架构YARN的基本架构核心组件YARN架构核心组件-ResouceManagerYARN架构核心组件-NodeManagerYARN架构核心组件-ApplicationMasterYARN架构核心组件-ContainerYARN的工作机制YARN上提交MapReduce程序步骤作业历史服务JobHistoryServer启动JobHistoryServer在伪分布式模式下,先开启hadoop和原创 2020-09-15 18:13:46 · 287 阅读 · 0 评论 -
Hadoop集群时区同步设置
配置集群的时区同步大数据系统是对时间敏感的计算处理系统,时间同步是基础保障,是大数据得以发挥作用的技术支撑,所以需要保证所有机器时间同步!1、确认是否安装过ntp: rpm -qa | grep ntp,若有的话使用:yum -y remove 相关文件名命令卸载2、安装ntp: yum -y install ntp3、修改所有节点的ntp配置文件: vi /etc/ntp.conf,添加如下内容:#当前节点IP地址restrict 192.168.206.33 nomodify notra原创 2020-09-24 16:33:35 · 617 阅读 · 0 评论 -
Hadoop集群搭建
Hadoop集群一、在虚拟机hadoop001的基础上克隆两台虚拟机:hadoop002、hadoop003三台虚拟机间建立互信: 1、虚拟机hadoop001:2、虚拟机hadoop002:3、虚拟机hadoop003:二、在安装配置好hadoop的前提下,修改opt/hadoop/etc/hadoop目录下的相关配置文件 1、修改core-site.xml配置文件 2、修改hdfs-site.xml配置文件 3、修改mapred-site.xml配置文件原创 2020-09-05 10:37:43 · 207 阅读 · 0 评论 -
简单的Hadoop javaAPI实现
Maven工程1、创建Maven工程,选择maven-archetype-quickstart2、填写GroupID(项目组织唯bai一的标识符)和ArtifactID(是项目的唯一的标识bai符)3、配置Maven_home directory和User setting file4、填写Project name(项目名)和选择Project location(项目路径)5、修改配置文件6、引入hadoop-common Jar包、hadoop-hdfs Jar包和hadoo原创 2020-09-04 22:04:38 · 896 阅读 · 0 评论 -
大数据安装hadoop
大数据简介分布式 由分布在不同主机上的进程(程序)协同子啊一起才能构成整个应用。 Browser/web server:瘦客户端程序.大数据4V特征 1.Volumn : 体量大 2.Velocity : 速度快 3.Variaty : 样式多 4.Value : 价值密度低Hadoop概念: 可靠的、可伸缩的、分布式计算的开源软件. 是一个框架、允许跨越计算机集群的大数据集处理,使用简单的编程模型(MapReduce)。 可从单个服务器扩展到几千台主机,每个节点提供了计原创 2020-09-03 20:12:14 · 235 阅读 · 0 评论 -
Hadoop HA模式搭建
Hadoop HA模式搭建一 、 搭建集群二 、修改配置文件三 、启动集群四 、测试集群是否部署成功一 、 搭建集群Hadoop HA模式搭建前需要完成hadoop集群配置、时区同步设置和zookeeper安装配置二 、修改配置文件1、修改hadoop01上的core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs原创 2020-09-08 19:45:24 · 390 阅读 · 0 评论 -
大数据概况及Hadoop生态系统
大数据概况及Hadoop生态系统大数据概况大数据概念Hadoop生态系统Hadoop概念Hadoop生态圈ZookeeperHDFS大数据概况大数据概念大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。一、大数据特征:1、4V特征a)Volume(大数据量):90% 的数据是过去两年产生b)Velocity(速度快):数据增长速度快,时效性高c)Variety(多样化):数据种类和来源多样化结构化数据、半结构化数据、非结构化数据d)Value(价值密度低)原创 2020-09-09 17:41:34 · 338 阅读 · 0 评论