
hadoop
文章平均质量分 92
Hadoop是一个由Apache所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
赵广陆
优快云认证博客专家、优快云的Java领域优质创作者、全网30w+粉丝、超300w访问量、专注于大学生项目实战开发、讲解和答疑辅导、以及产品测评宣传、工具推广等合作。同时招收学生代理、校园代理,对于专业性数据证明一切!
展开
-
Hadoop调优
目录1 mapreduce 跑的慢的原因2 mapreduce 优化方法2.1 数据输入2.2 map阶段2.3 reduce阶段2.4 IO传输2.5 数据倾斜问题2.6 常用的调优参数3 HDFS 小文件优化方法3.1 HDFS 小文件弊端3.2 解决方案3.3 CombineFileInputFormat3.4 开启JVM重用4 MapReduce 怎么解决数据均衡问题,如何确定分区号?5 Hadoop 中 job 和 Tasks 之间的区别是什么?1 mapreduce 跑的慢的原因Mapre原创 2021-12-08 16:51:06 · 499 阅读 · 0 评论 -
HDFS集群滚动升级
目录1 介绍2 升级2.1 不停机升级2.1.1 升级非联邦集群2.1.2 升级联邦集群2.2 停机升级2.2.1 升级非HA集群3 降级和回滚3.1 降级3.2 回滚4 滚动升级相关命令4.1 dfsadmin –rollingUpgrade4.2 dfsadmin –getDatanodeInfo4.3 dfsadmin –shutdownDatanode4.4 namenode –rollingUpgrade1 介绍HDFS滚动升级允许升级单个HDFS守护程序。例如,可以独立于NameNodes原创 2021-12-08 21:00:00 · 822 阅读 · 0 评论 -
HDFS Federation联邦机制
目录1 当前HDFS体系架构1.1 简介2 HDFS Federation架构2.1 简介2.2 好处3 HDFS Federation配置示例1 当前HDFS体系架构1.1 简介当前的HDFS架构有两个主要的层:➢ 命名空间 ( namespace )HDFS体系结构中的命名空间层由文件,块和目录组成。该层支持与名称空间相关的文件系统操作,例如创建,删除,修改和列出文件和目录。➢ 块存储层 ( Block Storage )块存储层包括两个部分:块管理: NameNode执行块原创 2021-12-08 20:45:00 · 1421 阅读 · 0 评论 -
HDFS服役新数据节点和退役旧节点步骤
目录1 背景2 动态扩容、节点上线2.1 新机器基础环境准备2.1.1 主机名、IP2.1.2 Hosts映射2.1.3 防火墙、时间同步2.1.4 SSH免密登录2.1.5 JDK环境配置2.2 Hadoop配置2.2.1 NameNode节点配置2.3 手动启动DataNode进程2.4 Hadoop Web页面查看2.5 DataNode负载均衡服务3 动态缩容、节点下线3.1 添加退役节点3.2 刷新集群3.3 手动关闭DataNode进程3.4 DataNode负载均衡服务4 黑白名单机制4.1原创 2021-12-07 17:29:25 · 1067 阅读 · 0 评论 -
HDFS Namenode HA高可用搭建
目录1 High Availability背景知识1.1 单点故障、高可用1.2 高可用如何实现1.2.1 主备集群1.2.2 Active、Standby1.3 可用性评判标准—x个91.4 HA系统设计核心问题1.4.1 脑裂问题1.4.2 数据同步问题2 HDFS NAMENODE单点故障问题3 HDFS HA解决方案—QJM3.1 QJM—主备切换、脑裂问题解决3.1.1 ZKFailoverController(zkfc)3.1.2 Fencing隔离机制4 HDFS HA环境搭建4.1 集群基础原创 2021-12-07 22:30:00 · 1447 阅读 · 0 评论 -
HDFS Namenode挂掉后分析解决
目录1 分析2 单节点挂掉数据恢复3 内存溢出1 分析挂掉后首先肯定是进行重启,如果时间段比较高峰期,肯定要快速移动文件进行复原,等错过高峰进行事故分析!2 单节点挂掉数据恢复方法一:将SecondaryNameNode中数据拷贝到namenode存储数据的目录;方法二:使用-importCheckpoint选项启动namenode守护进程,从而将SecondaryNameNode中数据拷贝到namenode目录中。步骤如下:拿一台和原来机器一样的机器,包括配置和文件,一般来说最快的是拿你节点机原创 2021-12-07 20:00:00 · 2917 阅读 · 0 评论 -
大数据Hadoop小文件问题与企业级解决方案
1 MapReduce性能优化现在大家已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并没有讲太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapReduce执行,不需要 我们写一行代码,所以说工作中的大部分需求我们都使用SQL去实现了,谁还苦巴巴的来写代码啊,一行SQL能抵你写的几十行代码,你还想去写MapReduce代码吗,肯定原创 2021-07-21 22:41:44 · 450 阅读 · 2 评论 -
大数据HDFS应用开发
目录1 HDFS 的 Shell 操作(开发重点)2 HDFS的常见Shell操作2.1 ls:查询指定路径信息2.2 put:从本地上传文件2.3 cat:查看HDFS文件内容2.4 get:下载文件到本地2.5 mkdir [-p]:创建文件夹2.6 rm [-r]:删除文件/文件夹3 HDFS案例实操4 Java代码操作HDFS4.1 配置Windows下Hadoop环境5 数据上传/下载的原理及过程1 HDFS 的 Shell 操作(开发重点)通过前面的学习,我们对HDFS有了基本的了解,下面原创 2021-11-08 20:30:00 · 1977 阅读 · 2 评论 -
大数据Hadoop集群运行程序
目录1 运行自带的MapReduce程序2 常见错误1 运行自带的MapReduce程序下面我们在Hadoop集群上运行一个MapReduce程序,以帮助读者对分布式计算有个基本印象。在安装Hadoop时,系统给用户提供了一些MapReduce示例程序,其中有一个典型的用于计算圆周率的Java程序包,现在运行该程序。该jar包文件的位置和文件名是“~/hadoop-3.1.0/share/Hadoop/mapreduce/hadoop- mapreduce-examples-3.1.0.jar”,原创 2021-10-27 20:45:00 · 1648 阅读 · 0 评论 -
大数据Hadoop集群的启动
目录1 启动准备工作1.1 配置操作系统的环境变量1.2 创建Hadoop数据目录1.3 格式化文件系统1.4 启动和关闭Hadoop1.5 验证Hadoop是否成功启动1.6 hadoop-daemon.sh的使用2 HDFS常用的操作命令3 hdfs的高级使用命令3.1 HDFS文件限额配置3.2 数量限额3.3 空间大小限额3.4 HDFS的管理命令3.5 hdfs的安全模式1 启动准备工作通过前面的配置现在可以启动Hadoop集群了,但是在首次启动Hadoop时还需要做一些准备工作。1.1原创 2021-10-27 21:30:00 · 12383 阅读 · 2 评论 -
Hdfs连接报错java.net.ConnectException: Connection timed out: no further information
目录1 连接超时2 排查具体问题2.1.检查网络能不能ping通,防火墙问题2.2 检查zookeeper有没有开启2.3 最后检查Hue中Hdfs节点挂掉3 解决方法1 连接超时2 排查具体问题2.1.检查网络能不能ping通,防火墙问题由于有Hue可以访问,网络没有问题2.2 检查zookeeper有没有开启2.3 最后检查Hue中Hdfs节点挂掉最后可以看出上述问题都没有所以大环境是没有错,那就是代码的问题3 解决方法问题在于使用本地读取hdfs文件时,服务器datanode使原创 2021-10-11 21:30:00 · 4726 阅读 · 0 评论 -
大数据Hadoop运行模式和常见错误
目录1 Hadoop 运行模式2 本地运行模式3 完全分布式运行模式(开发重点)3.1 编写集群分发脚本 xsync3.1.1 scp(secure copy)安全拷贝3.1.2 rsync 远程同步工具3.1.3 xsync 集群分发`脚本`4 集群配置4.1 配置历史服务器4.2 配置日志的聚集4.3 集群启动/停止方式总结4.4 常用端口号说明4.5 集群时间同步5 常见错误及解决方案1 Hadoop 运行模式1)Hadoop 官方网站:http://hadoop.apache.org/2)H原创 2021-03-25 18:42:10 · 1322 阅读 · 0 评论 -
大数据YARN概述
目录1 YARN 架构概述1.1 原MapReduce框架的不足1.2 Yarn的ApplicationMaster介绍2 HDFS、YARN、MapReduce 三者关系2.1 Yarn 的工作流程3 HADOOP之YARN详解4 YARN中支持三种调度器4.1 FIFO Scheduler4.2 CapacityScheduler4.3 FairScheduler5 案例:YARN多资源队列配置和使用1 YARN 架构概述1.1 原MapReduce框架的不足JobTracker是集群事务的原创 2021-04-10 11:14:35 · 592 阅读 · 0 评论 -
大数据HDFS高级特性
目录1 HDFS的回收站2 HDFS的安全模式3 实战:定时上传数据至HDFS4 HDFS的快照1 HDFS的回收站我们windows系统里面有一个回收站,当想恢复删除的文件的话就可以到这里面进行恢复,HDFS也有回收站。HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户在Shell命令行删除的 文件/目录,会进入到对应的回收站目录中,在回收站中的数据都有一个生存周期,也就是当回收站中的 文件/目录在一段时间之内没有被用户恢复的话,HDFS就会自动的把这个文原创 2021-04-09 20:03:30 · 302 阅读 · 0 评论 -
大数据MapReduce常用操作
目录1 MapReduce之任务日志查看2 停止Hadoop集群中的任务3 MapReduce程序扩展1 MapReduce之任务日志查看如果想要查看mapreduce任务执行过程产生的日志信息怎么办呢?是不是在提交任务的时候直接在这个控制台上就能看到了?先不要着急,我们先在代码中增加一些日志信息,在实际工作中做调试的时候这个也是很有必要的在自定义mapper类的map函数中增加一个输出,将k1,v1的值打印出来 @Override protected void map(Lon原创 2021-04-10 09:43:30 · 497 阅读 · 0 评论 -
大数据MapReduce统计单词实例
目录1 梳理单词计数的执行流程2 实战WordCount3 web界面中查看任务执行情况1 梳理单词计数的执行流程上面的是单个文件的执行流程,有一些现象看起来还是不明显 下面我们来看一个两个文件的执行流程2 实战WordCount前面我们通过理论层面详细分析了单词计数的执行流程,下面我们就来实际上手操作一下。大致流程如下:第一步:开发Map阶段代码第二步:开发Reduce阶段代码第三步:组装Job在idea中创建WordCountJob类添加注释,梳理一下需求:需求:读取hdf原创 2021-03-14 18:20:07 · 1124 阅读 · 0 评论 -
大数据MapReduce入门
目录1 MapReduce 定义2 MapReduce介绍3 分布式计算介绍3.1 移动计算4 MapReduce原理剖析4.1 Map阶段4.2 reduce阶段5 MapReduce原理剖析5.1 MapReduce之Map阶段5.1.1 第一步:划分(逻辑)5.1.2 第二步:切割5.1.3 第三步:分区5.1.4 第四步:排序、分组5.1.5 第五步:Combiner规约5.1.6 第六步:写入到linux 的磁盘文件5.1.7 最后注意一点:5.2 MapReduce之Reduce阶段5.2.1原创 2021-03-14 18:01:04 · 573 阅读 · 0 评论 -
大数据HDFS体系结构
目录1 HDFS 概述1.1 HDFS 产出背景及定义1.2 HDFS 优缺点2 HDFS体系结构2.1 NameNode介绍2.2 SecondaryNameNode介绍2.3 DataNode介绍2.4 NameNode总结1 HDFS 概述1.1 HDFS 产出背景及定义1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式原创 2021-03-14 17:25:18 · 526 阅读 · 0 评论 -
大数据Hadoop概述
目录1 Hadoop 概述1.1、 Hadoop的介绍1.1 Hadoop 是什么1.2 Hadoop 发展历史2 hadoop的历史版本和发行版公司2.1 Hadoop历史版本2.2 Hadoop三大发行版公司3 Hadoop 优势(4 高)4 大数据技术生态体系5 推荐系统框架图1 Hadoop 概述1.1、 Hadoop的介绍1.1 Hadoop 是什么1.2 Hadoop 发展历史Hadoop发展历史Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引原创 2021-03-14 11:02:15 · 864 阅读 · 0 评论 -
大数据Hadoop运行环境搭建
目录1 安装三台虚拟机1.1 单机模式(standalone)1.2 伪分布模式(Pseudo-Distributed Mode)1.3 全分布模式(Fully Distributed Mode)1.4 配置完成三台虚拟机2 Hadoop的安装与配置2.1 解压Hadoop安装包2.2 配置Hadoop环境变量2.3 配置Yarn环境变量2.4 配置核心组件2.5 配置文件系统2.6 配置yarn site.xml文件2.7 配置MapReduce计算框架文件2.8 配置Master中的workers文件2原创 2021-03-25 17:56:13 · 416 阅读 · 1 评论