
Hadoop
hadoop学习笔记
Jiang锋时刻
这个作者很懒,什么都没留下…
展开
-
大数据学习之Hadoop——01Hadoop简介
一. Hadoop 基础:1. 大数据特点(4V)Volume: 大量Velocity: 高速Variety: 多样Value: 低价值密度2. Hadoop的优势(4高):高可靠性: Hadoop底层维护多个数据副本高扩展性: 在集群间分配任务数据, 可方便扩展数以千计的节点.高效性: 在MapReduce的思想下, Hadoop是并行工作的高容错性: 能够自动将失败的任务重新分配3. Hadoop组成(面试重点):Hadoop1.x:HDFS(数据存储)MapRe原创 2020-05-13 23:25:49 · 367 阅读 · 0 评论 -
大数据学习之Hadoop——02Hadoop集群安装
一. Hadoop伪分布式安装:1. 自身免秘钥(前提):$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys2. 安装hadoop:解压hadoop安装包tar xf hadoop-2.6.5.tar.gz移动到指定目录配置环境变量vi /etc/profile配置"JAVA_HOME"的路径修改hadoop-原创 2020-05-14 13:49:51 · 387 阅读 · 0 评论 -
大数据学习之Hadoop——03HDFS概念
Hadoop命令:-ls: 查看指定路径下的文件或文件夹-R: 表示查询子目录下的文件hdfs dfs -ls /hadoophadoop fs -ls /hadoophdfs dfs -ls -R /hadoophadoop fs -ls -R /hadoop-mkdir: 创建文件夹hdfs dfs -mkdir -p /hadoophadoop fs -mkdir -p /hadoop-p: 表示循环创建, 创建多级目录时需要该参数-put: 文件上传原创 2020-05-16 09:03:12 · 473 阅读 · 0 评论 -
大数据学习之Hadoop——04HDFS API(持续完善中)
package com.hjf.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import java.io.IOException;/** * @author Jiang锋时刻 * @create 2020-05-16 15:50 */public class HDFSUtils { public static void main(String[] ar原创 2020-05-16 17:24:27 · 196 阅读 · 0 评论 -
大数据学习之Hadoop——05MapReduce概念(感觉没写什么, 后面再补充)
一. 基本概念1. 为什么需要MapReduce海量数据在单机上处理因为硬件资源限制,无法胜任而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度MapReduce把大量分布式程序涉及到的内容都封装进了该运算框架引入 MapReduce 框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理2. MapReduce的思想就是“分而治之”Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包原创 2020-05-18 00:33:24 · 295 阅读 · 0 评论 -
大数据学习之Hadoop——06Hadoop序列化
一. Hadoop 序列化概念1. 序列化概述什么是序列化序列化就是把内存中的对象, 转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化就是将收到的字节序列(其他数据传输协议)或是磁盘的持久化数据, 转换成内存中的对象为什么要序列化一般来说,“活的“对象只生存在内存里,关机断电就没有了。而且“活的"对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。为什么不用java的序列化Java原创 2020-05-17 20:23:31 · 224 阅读 · 0 评论 -
大数据学习之Hadoop——07MapReduce相关练习01(wordCount + topN)
1. 编写WordCountJob端package com.hjf.mr.wordcount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import or原创 2020-05-17 17:18:30 · 376 阅读 · 0 评论 -
大数据学习之Hadoop——08Mapreduce执行过程详解
本文转载于: https://blog.youkuaiyun.com/yangshaojun1992/article/details/85003668一、分析MapReduce执行过程MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出。Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中。整个流程如图:二、Mapper任务的执行过程详解每个Mapper任务是一个java进程.转载 2020-05-18 00:48:42 · 630 阅读 · 0 评论 -
大数据学习之Hadoop——09Partitoner分区和Combiner分区
Partitioner分区部分转载的是: https://www.cnblogs.com/qingyunzong/p/8584379.html一. Partitioner分区1. Partitioner的作用:进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务,也就说Mapper任务要划分数据,对于不同的数据分.转载 2020-05-18 10:21:28 · 471 阅读 · 0 评论 -
大数据学习之Hadoop——09MapReduce框架原理
一. InputFormat 数据输入1. 切片与MapTask并行度决定机制原创 2020-07-24 22:59:17 · 99 阅读 · 0 评论 -
大数据学习之Hadoop——10MapReduce实现Reduce Join(多个文件联合查询)
一. MapReduce Join对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。1. 思路1. reduce join在map阶段, 把关键字作为key输出,并在value中标记出数据是来自data1还是data2。因为在shuffle阶段已经自然按key分组,reduce阶段,判断每一个value是来自data1还是data2,在内原创 2020-05-18 21:17:52 · 557 阅读 · 0 评论 -
大数据学习之Hadoop——11MapReduce相关练习02(共同好友)
1. 问题:求数据集中任意两人之间的共同好友2. 数据集A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K说明:A:B,C,D,F,E,O 表示 B,C,D,F,E,O 为A的好友3. 思路首先求出你是那些人的好友然后将认识自己的好友, 进行两两原创 2020-05-20 02:03:06 · 248 阅读 · 0 评论 -
大数据学习之Hadoop——15Yarn资源调度
声明: 笔记整理于尚硅谷教学课件, 本来想投转载的, 但是没法填写链接, 使用投了原创, 非本意. 侵权修改.Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。一. Yarn 基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成:1. 各组件主要作用1. ResourceManager(.原创 2020-05-18 21:47:53 · 350 阅读 · 0 评论 -
hadoop配置文件详解系列(一)-core-site.xml篇
属性名称 属性值 描述 hadoop.common.configuration. version 0.23.0 配置文件的版本。 hadoop.tmp.dir /tmp/hadoop-${user.name} ...转载 2020-01-07 00:35:40 · 4315 阅读 · 0 评论 -
hadoop配置文件详解系列(二)-hdfs-site.xml篇
属性名称 属性值 描述 hadoop.hdfs.configuration.version 1 配置文件的版本 dfs.namenode.rpc-address 处理所有客户端请求的RPC地址,若在HA场景中, 可能有多个namenode,就把名称ID添加到进来。 该属性的格式为...转载 2020-01-07 01:12:48 · 6087 阅读 · 0 评论