
Hadoop
Hadoop相关技术
Clozzz
在撸码的道路上越走越远
展开
-
大数据软件之搭建Hadoop高可用集群
Hadoop102 Hadoop103 Hadoop104 HDFS NameNode、DataNode NameNode(StandBy)、DataNode DataNode Yarn ResourceManager、NodeManager ResourceManager、NodeManager NodeManager原创 2020-07-07 18:45:07 · 363 阅读 · 0 评论 -
大数据软件之搭建完全分布式Hadoop
集群准备准备三台客户机(关闭防火墙、静态ip、主机映射、主机名称),主机名分别为Hadoop2,Hadoop3,Hadoop4(具体虚拟机安装步骤在我之前的博客有写到)安装jdk,配置环境变量(具体步骤在我之前的博客里也有写到)配置虚拟机免密以及互联免密(具体步骤在我之前的博客里也有写到)配置时间同步集群规划hadoop2hadoop3hadoop4HDFSNameNode、DataNodeDataNodeSecondaryNameNode、DataNode原创 2020-07-07 11:54:25 · 1049 阅读 · 0 评论 -
大数据基础之Hadoop——Yarn机制
Yarn概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 其主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制Yarn工作机制简述:用户使用客户端向ResourceManager提交一个任务job,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有原创 2020-06-30 19:16:57 · 377 阅读 · 0 评论 -
大数据基础之Hadoop——Java API hdfs读写
pom文件:<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> </dependency> <!-- https://mvnrepository.com/artifact原创 2020-06-30 11:44:55 · 435 阅读 · 0 评论 -
大数据软件之Linux环境安装hadoop操作 葵花宝典一,堪称完美
1、将hadoop的安装包上传到Linux系统上,进行解压tar -zxf hadoop安装包2、修改hadoop软件的配置文件(进入hadoop配置文件cd /opt/hadoop/etc/hadoop)(1)修改hadoop-env.sh 在(The java implementation to use)下面修改JAVA_HOME的地址,改为自己虚拟机jdk的安装地址(2)core-site.xml(3)mapred-site.xml(如果没有该文件则复制mapred-sit原创 2020-06-01 17:01:58 · 402 阅读 · 0 评论 -
windows环境下安装Hadoop,亲测非常有效
我们写的wordCount程序是无法直接在Windows环境下直接执行的,会一直报空指针异常的错误NullPointException,因为我们的Windows环境没有Hadoop的操作环境,要想在Windows环境下运行用MapReduce写的wordCount,我们就需要在Windows环境下安装Hadoop下载Hadoop:链接: https://pan.baidu.com/s/1To2kHmp96E-f0q5j4w3XqA 提取码: ngmc解压并复制安装路径用来配置环境变量进入Path新原创 2020-06-04 20:12:50 · 456 阅读 · 0 评论 -
大数据基础之Hadoop,初学必看
大数据概念:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据特征:分布式结构:由于分布在不同的主机上的进程,协同工作,一起才能构成整个应用。4V特征:Volumn:体量大,单个数据体量大,数据条数也是海量。Velocity:数据快,数据时效性高,由于数据基数大的原因,数据的操作必须要高速。Variaty:样式多,可以存储多种类型的数据,包括结构化数据,例如表格,半结构化数据,例如日志、网址,和非结构化数据,例如图片、视频等。Value:价值密度低,即单原创 2020-06-05 15:39:59 · 396 阅读 · 0 评论 -
MapReduce的join操作,代码实现
MapJoinMapJoin主要适用于一个大表和小表的关联,如果两张都是大表则会造成数据读取混乱,不适合用MapJoin处理。MapJoin处理原理:将小表读入到内存中,然后用map方法将大表中的数据一一读取,并和内存中的小表进行数据匹配。因为是在map环节中进行了join操作,所以此做法可以有效提高reduce的运行效率。两张表:物品类型表:物品表:我这里是新建的Excel表,最后保存的时候将文件格式改为csv格式,这种格式的文件是以,作为分隔符的。代码实现:package com.k原创 2020-06-09 15:38:30 · 375 阅读 · 0 评论