
hadoop3.x
文章平均质量分 93
hadoop3.x
爱上口袋的天空
一步一流年,止不住的脚步,挽不回的青春!
展开
-
22 - Hadoop HA 高可用集群搭建、手动模式、自动模式以及HA模式集群
(1)所谓 HA(High Availablity),即高可用(7*24 小时不中断服务)。(2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HA。(3)NameNode 主要在以下两个方面影响 HDFS 集群HDFS HA 功能通过配置多个 NameNodes(Active/Standby)实现在集群中对 NameNode 的 热备来解决上述问题。原创 2024-04-29 21:44:11 · 1772 阅读 · 0 评论 -
04 - Hadoop本地运行模式之Grep案例、WordCount案例
在文件中输入如下内容。原创 2022-05-22 23:17:15 · 635 阅读 · 1 评论 -
Hadoop搭建伪分布式运行模式、启动HDFS并运行MapReduce程序、启动YARN并运行MapReduce程序、配置历史服务器、日志的聚集、配置文件说明
1、简介从字面上,很好理解伪分布式的含义,对于Hadoop而言,可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode。2、修改/opt/module/hadoop-2.7.2/etc/hadoop/hadoop-env.sh文件3、修改/opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml文件<!-- 指定HDFS...原创 2022-05-23 21:44:56 · 928 阅读 · 0 评论 -
12 - MapReduce之OutputFormat数据输出以及MapReduce内核源码解析
1)需求过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。(1)输入数据2)需求分析3)案例实操(1)编写LogMapper类@Override//不做任何处理,直接写出一行log数据(2)编写LogReducer类@Override// 防止有相同的数据,迭代写出(3)自定义一个LogOutputFormat类@Override。原创 2024-04-20 11:50:37 · 1010 阅读 · 0 评论 -
18 - hadoop之核心参数配置以及集群压测
在hadoop-env.sh文件中配置如下。由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络。--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->查看发现hadoop102上的NameNode和DataNode占用内存都是自动分配的,且相等。开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。回收站目录在HDFS集群中的路径:/user/kgf/.Trash/…原创 2019-07-25 22:43:12 · 466 阅读 · 1 评论 -
Hadoop之编译源码
一:服务器,jar包等准备首先我们需要准备一台内存大约4G左右的服务器,2G的内存不一定够,4G的稳妥一点,并且 最好是一个纯净版的服务器,就是除了网络,主机名之外其它什么都没有配置的。 采用root用户编译,减少文件夹权限出现问题 将准备好的包上传到服务器上 安装JDK A:将jdk解压到module文件夹,并且配置JAVA_HOME路径在/etc/p...原创 2019-07-14 13:22:32 · 795 阅读 · 0 评论 -
03 - hadoop3.1.3运行环境搭建
hadoop1004G50G不会装模板机vim:编辑器注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙注意:kgf这一行不要直接放到root行下面,因为所有用户都属于wheel组,你先配置了kgf具有免密功能,但是程序执行到%wheel行时,该功能又被覆盖回需要密码。所以kgf要放到%wheel这行下面。。注意:如果你的虚拟机是最小化安装不需要执行这一步。转载 2022-05-22 20:25:45 · 1096 阅读 · 0 评论 -
07 - HDFS客户端环境准备、HDFS的API操作、HDFS的I/O流操作
客户端去操作HDFS时,是有一个用户身份的。默认情况下,HDFS客户端API会从JVM中获取一个参数来作为自己的用户身份:-DHADOOP_USER_NAME=kgf,kgf为用户名称。合并完成后,将hadoop-3.1.3.tar.gz.part1重新命名为hadoop-3.1.3.tar.gz。在Window命令窗口中进入到目录E:\,然后执行如下命令,对数据进行合并。将hdfs-site.xml拷贝到项目的根目录下。(1)客户端代码中设置的值 >(3)然后是服务器的默认配置。原创 2022-05-28 22:18:31 · 782 阅读 · 0 评论 -
11 - MapReduce工作流程、shuffle机制、分区、排序以及合并
bean对象做为key传输,需要实现接口重写compareTo方法,就可以实现排序。原创 2019-08-04 12:44:42 · 523 阅读 · 0 评论 -
HDFS HA之手动高可用故障转移配置、自动高可用故障转移配置、配置YARN-HA集群
HDFS HA之手动高可用故障转移配置原创 2022-06-12 19:25:58 · 591 阅读 · 0 评论 -
05 - hadoop3.1.3完全分布式模式环境搭建
1)各个模块分开启动/停止(配置ssh是前提)常用1.整体启动/停止HDFS2.整体启动/停止YARN2)各个服务组件逐一启动/停止1.分别启动/停止HDFS组件2.启动/停止YARN。转载 2024-04-07 22:16:07 · 228 阅读 · 0 评论 -
MapReduce实现寻找共同好友
需求:给出A-O个人中每个人的好友列表,求出哪些人两两之间有共同好友,以及他们的共同好友都有谁。 注意:这些人好友都是单向的,可能A是B的好友,但是B不一定是A的好友,这种类似的微博的关注, A关注B,但是B不一定关注了A。 原始文件如下: 要求输出的格式如下: 思路分析: ⑴我们从上面可以现在我们知道A-O每个人拥有哪些好友......原创 2019-08-11 15:05:54 · 1817 阅读 · 0 评论 -
10 - MapReduce之Hadoop序列化,MapReduce框架原理
⑴自定义 bean 对象要想序列化传输,必须实现序列化接口,需要注意以下 7 项:a:必须实现 Writable 接口b:反序列化时,需要反射调用空参构造函数,所以必须有空参构造。c:重写序列化方法d:重写反序列化方法e:注意反序列化的顺序和序列化的顺序完全一致f:要想把结果显示在文件中,需要重写 toString(),可用”\t”分开,方便后续用g:如果需要将自定义的 bean 放在 key 中传输,则还需要实现 comparable 接口,因为。原创 2019-07-28 16:26:29 · 448 阅读 · 1 评论 -
HDFS的数据流以及Namenode工作机制
一:通过IO流操作HDFSHDFS文件上传 效果: HDFS文件下载 定位文件读取 ⑴下面的文件总共有188.5M,它是分在两块Block存储的,我们如何分块读取呢 ⑵我们指定每次读取的文件大小即可,第一次读取128M,后面再读取60.5M就读取完整了 效果: ...原创 2019-07-21 19:05:14 · 306 阅读 · 0 评论 -
09 - MapReduce之入门概述、Mapreduce 优缺点、核心思想、MapReduce进程、MapReduce 编程规范、以及WordCount 案例
MapReduce 易于编程良好的 扩展性高容错性适合 PB 级以上海量数据的 离线处理DAG (有向图)计算。原创 2019-07-27 16:09:31 · 2219 阅读 · 1 评论 -
08 - HDFS的数据流、NameNode和SecondaryNameNode、Fsimage和Edits解析、CheckPoint时间设置、NameNode故障处理
集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。(1)(功能描述:查看安全模式状态(2)(功能描述:进入安全模式状态(3)(功能描述:离开安全模式状态(4)(功能描述:等待安全模式状态。原创 2022-05-29 16:08:20 · 279 阅读 · 0 评论 -
13 - MapReduce之Reduce join以及map join分布式缓存
一:Reduce join简介: ⑴原理: Map 端的主要工作: 为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录然后用连接字段作为 key, 其余部分和新加的标志作为 value,最后进行输出。 Redu......原创 2019-08-07 21:51:50 · 792 阅读 · 1 评论 -
19 - HDFS—多目录、集群扩容以及缩容
1)NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性(1)在hdfs-site.xml文件中添加如下内容注意:因为每台服务器节点的磁盘情况不同,所以这个配置配完之后,可以选择不分发(2)停止集群,删除三台节点的data和logs中所有数据(3)格式化集群并启动总用量 12drwx------. 3 atguigu atguigu 4096 12月 11 08:03 data。原创 2019-07-23 23:49:51 · 599 阅读 · 1 评论 -
06 - Hadoop之HDFS文件系统概述、HDFS组成架构、HDFS命令行操作
一:HDFS概述HDFS产生的背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统 管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式 文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS概念 HDFS它是一个文件系统,用于存储文件,通过目录树来定位文件,其次它是分布式的,...原创 2019-07-19 23:27:08 · 778 阅读 · 1 评论 -
15 - MapReduce之压缩/解压缩案例以及Yarn介绍
一:数据流的压缩和解压缩 CompressionCodec 有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩, 我们可以使用 createOutputStream(OutputStreamout)方法创建一个 CompressionOutputStream,将其以压缩格式写入底层的流。相反,要想对从输入流读取而来的数据进行解压缩......原创 2019-08-11 11:32:17 · 514 阅读 · 1 评论 -
MapReduce,MapTask工作流程,Combiner 合并以及二次排序GroupingComparator
一:MapTask工作流程简介 详细流程如下 ⑴Read阶段: Map Task 通过用户编写的 RecordReader,从输入 InputSplit 中解析出一个个 key/value。 ⑵Map 阶段: 该节点主要是将解析出的 key/value 交给用户编写 map()函数处理,并产生一系列新的......原创 2019-07-31 23:10:10 · 888 阅读 · 0 评论 -
14 - MapReduce之数据清洗(ETL)案例,倒排索引案例,ReduceTask 工作机制,Hadoop 数据压缩简介
一:简介 在运行核心业务 Mapreduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。 清理的过程往往只需要运行 mapper 程序,不需要运行 reduce 程序。二:日志清洗案例之简单解析版需求:去除日志中字段长度小于等于11的日志(每一行按照空格切割,切割后数组长度小于11的日志不要) 数据如下: 代码实现......原创 2019-08-10 11:02:19 · 2773 阅读 · 1 评论 -
01- hadoop入门之概述
一:什么是Hadoop?Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈 Hadoop 三大发行版本: Apache、Cloudera、Hortonworks。 a:Apache 版本最原始(最基础)的版本,对于入门学...原创 2019-06-30 22:16:49 · 261 阅读 · 1 评论 -
02 - 大数据之Hadoop3.x模板虚拟机配置
注意:在安装系统之前需要检查自己虚拟机的bios 的虚拟化是否打开(大部分的电脑都是打开的,大家可以先尝试直接安装,如果出现错误再去调试,没有出错就不用管了)转载 2024-04-04 21:59:30 · 175 阅读 · 0 评论 -
Hadoop之完全分布式模式环境搭建
一:虚拟机准备准备4台虚拟机,静态IP地址,关闭防火墙,设置主机名 IP地址,主机名如下: 192.168.8.101,hadoop101 192.168.8.102,hadoop102 192.168.8.103,hadoop103 192.168.8.104,hadoop104 注意:...原创 2019-07-13 09:48:44 · 452 阅读 · 0 评论 -
21 - Hadoop企业优化策略
hadoop 优化之企业优化转载 2022-06-11 23:21:55 · 280 阅读 · 0 评论 -
17 - Yarn案例实操
1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程2)需求分析:1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster平均每个节点运行10个 / 3台 ≈ 3个任务(4 3 3)4)分发配置注意:如果集群的硬件资源不一致,要每个单独配置5)重启集群6)执行WordCount程序7)观察Yarn任务执行页面。原创 2024-04-22 21:28:53 · 1053 阅读 · 0 评论 -
20 - HDFS之存储优化纠删码原理、纠删码案例实操 、异构存储(冷热数据分离)
HDFS之存储优化纠删码原理、纠删码案例实操 、异构存储(冷热数据分离)原创 2022-06-19 17:19:33 · 1227 阅读 · 1 评论 -
16 - hadoop3.1.3的Yarn常用命令、yarn node查看节点状态
3.2、打印ApplicationAttemp状态:yarn applicationattempt -status Yarn状态的查询,除了可以在hadoop21:8088页面查看外,还可以通过命令操作。打印队列信息:yarn queue -status 注:只有在任务跑的途中才能看到。原创 2022-06-14 22:54:18 · 5004 阅读 · 0 评论 -
Hadoop3.1.3之完全分布式模式环境搭建
目录一:虚拟机准备1、准备3台虚拟机,静态IP地址,关闭防火墙,设置主机名2、3台虚机的/etc/hosts全部配置IP对应主机名3、OK虚拟机准备完毕二、SSH无密码登录三、在hadoop20服务器上安装JDK和hadoop1、安装JDK(跳过,参考之前的即可)2、安装hadoop 2.1、将下载的安装包上传到/opt/software/目录下,并解压安装文件到/opt/module下面 2.2、将Hadoop添加到环境变量 2.3、 让修改后的文件生效 2.4、测试是否安装成功原创 2022-06-14 22:05:30 · 2331 阅读 · 0 评论