Hadoop
文章平均质量分 57
hadoop原理相关
Jack_Roy
剃人头者,人亦剃其头。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Debug跟踪Hadoop3.0.0源码之MapReduce Job提交流程】第三节 Job提交前的初始化
【Debug跟踪Hadoop3.0.0源码】第三节 jobSubmitter(提交器对象)的初始化回顾cluster与yarn的交互过程回顾上一节中我们对 jobSubmitter(提交器对象)的初始化过程进行了跟踪,查看了相关初始化的内容,下面进入==submitJobInternal(Job job, Cluster cluster)==方法中查看cluster与yarn的一些交互过程。...原创 2020-02-21 01:07:15 · 12246 阅读 · 0 评论 -
【Debug跟踪Hadoop3.0.0源码之MapReduce Job提交流程】第二节 jobSubmitter(提交器对象)的初始化
【Debug跟踪Hadoop3.0.0源码】第二节 提交器jobSubmitter对象的初始化回顾waitForCompletion(boolean verbose)后记跳转回顾上一节中我们对 Configuration和Job对象的初始化过程进行了跟踪,查看了相关初始化的内容,下面进入waitForCompletion(boolean verbose) 方法中继续跟踪,讲述一下Clust...原创 2020-02-19 21:20:24 · 17128 阅读 · 1 评论 -
【Debug跟踪Hadoop3.0.0源码之MapReduce Job提交流程】第一节 Configuration和Job对象的初始化
【大数据入门笔记系列】第七节 Debug阅读Hadoop源码(MapReduce提交前做了什么?)前言Configuration和Job对象的初始化后记跳转前言不得不说,在此前我对阅读源码这件事是拒绝的,一方面也知道自己非读不可,另一方面是功力不够,所以数次向一些开源框架的源码发起总攻,最终都以失败而告终。那么这一次,我在已经初步阅读过MapReduce提交Job源码的基础上,根据【大数据...原创 2020-02-19 19:08:03 · 11983 阅读 · 0 评论 -
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)
【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml编写代码前言本来是想直接扒一扒MapReduce的工作原理,但是觉得只是图解或者文字描述,没有Demo的运行体验总是无趣的,一遍走下来也没有什么成就感,因此还是要撸一撸代码的。那么谈到MapReduce的工作原理,我们的Demo首选...原创 2020-02-17 00:07:13 · 14651 阅读 · 5 评论 -
【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作流程
【大数据入门笔记系列】第六节 分布式计算框架MapReduce的工作原理MapReduce分布式运算MapReduceApplicationMapReduce分布式运算MapReduce分布式运算程序至少分成两个阶段:第一阶段各个节点独立完成所分得的计算任务,这个时候各节点保持着并发运行,这便是Map阶段;第二阶段就是统计第一阶段的结果,统计实例根据统计内容可以为多个(有些统计只能有一...原创 2020-02-19 00:30:32 · 12258 阅读 · 1 评论 -
【大数据入门笔记系列】第三节 Hdfs读、写数据处理流程
【大数据入门笔记系列】第三节 Hdfs写数据处理流程Hdfs简介写数据处理流程后记跳转Hdfs简介一般而言,Hdfs是由一个NameNode节点和若干个DataNode节点组成(非高可用,高可用还有一个SecondNameNode)。NameNode:管理分布式文件系统的元数据,这些元数据是一些诸如描述文件的存储路径以及block具体在哪些DataNode上的具体位置等;DataNod...原创 2020-02-14 03:07:13 · 15539 阅读 · 0 评论 -
【SpringBoot 远程提交MapReduce】 Error: java.lang.ClassNotFoundException: xxxxx包.xxxxx类
【SpringBoot】Error: java.lang.ClassNotFoundException: org.wltea.analyzer.core.IKSegmenter报错明细问题分析后记报错明细IDEA SpringBoot集成hadoop运行环境,本地启动项目,GET请求接口触发远程提交MapReduce任务至生产集群报错:Error: java.lang.ClassNotFou...原创 2020-02-17 01:28:02 · 12813 阅读 · 2 评论 -
【SpringBoot】 ClassNotFoundException: Class com.jackroy.www.ServiceImpl.WordCountMap not found
【SpringBoot】Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.jackroy.www.ServiceImpl.WordCountMap not found报错明细问题解决后记报错明细IDEA SpringBoot集成hadoop运行环境,本地启动项目,GET请求接口触发远程提...原创 2020-02-17 01:15:05 · 12460 阅读 · 0 评论 -
【大数据入门笔记系列】第四节 NameNode元数据缓存机制
【大数据入门笔记系列】第四节 NameNode元数据缓存机制NameNode如何防止内存中的元数据无限膨胀?如何降低元数据丢失风险?SecondaryNameNodecheckpoint触发条件设定后记跳转NameNode如何防止内存中的元数据无限膨胀?客户端向分布式文件系统请求上传文件,NameNode需要写入Socket的相关元数据;客户端向分布式文件系统请求下载文件,NameNod...原创 2020-02-14 18:07:43 · 12729 阅读 · 0 评论 -
【SpringBoot】Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster报错明细问题解决报错明细IDEA SpringBoot集成hadoop运行环境,远程提交MapReduce任务至生产集群报错:Failing this attempt.Diagnostics: [2020-02-17 0...原创 2020-02-17 00:57:07 · 14860 阅读 · 0 评论 -
【小工具】 hdfs路径信息获取程序
HDFS路径信息获取程序前言shell源码执行语句生成结果说明前言集群布置上线以后,随着数据的涌入,hdfs的磁盘容量所剩不多,在最近一次发生的节点宕机后,hdfs进行故障恢复更是直接将磁盘均写满至90%以上;超过资源阈值以后,该节点在yarn上不对外提供服务,整个集群的计算资源被锁死,调度全部暂停。面对这样的情形,最简单粗暴的方法当然是删除数据,腾出disk空间,使得disk占用处于阈值以...原创 2019-11-06 17:02:01 · 13033 阅读 · 8 评论 -
【小工具】hdfs balance脚本(均衡操作)
HDFS路径信息获取程序前言shell源码执行语句执行结果说明前言集群增加新节点后,hdfs 节点和disk之间的数据分配十分不均匀,需要进行均衡操作,这里写了一个简单的balance操作脚本shell源码#!/bin/bash# 904857600 动态分配balance操作的带宽# 可执行ethtool bond0命令查看自己的带宽# 其中bond0是网卡sudo -u hd...原创 2019-11-06 19:38:25 · 13619 阅读 · 0 评论
分享