
hadhoop
文章平均质量分 65
老鼠扛刀满街找猫@
这个作者很懒,什么都没留下…
展开
-
Hadoop综合调优-企业开发场景案例
文章目录Hadoop综合调优-企业开发场景案例1 需求2 HDFS参数调优2.1 修改hadoop-env.sh2.2 修改hdfs-site.xml2.3 修改core-site.xml2.4 分发到每台服务器3 MapReduce 参数调优Hadoop综合调优-企业开发场景案例hadoop版本:3.1.31 需求场景从 1G 数据中,统计每个单词出现次数。服务器 3 台,每台配置 4G 内存,4 核 CPU,4 线程。求分析1G / 128m = 8 个 MapTask;1 个 Redu原创 2021-10-26 16:18:03 · 311 阅读 · 0 评论 -
Hadoop-MapReduce 调优(生产经验)
文章目录Hadoop-MapReduce 生产经验1 MapReduce 跑的慢的原因1.1 计算机性能1.2 I/O 操作优化2 MapReduce 常用调优参数2.1 优化12.1 优化23 MapReduce 数据倾斜问题3.1 常见现象3.2 减少数据倾斜的方法Hadoop-MapReduce 生产经验1 MapReduce 跑的慢的原因1.1 计算机性能CPU、内存、磁盘、网络1.2 I/O 操作优化数据倾斜Map 运行时间太长,导致 Reduce 等待过久小文件过多原创 2021-10-21 20:20:04 · 217 阅读 · 0 评论 -
HDFS-服役新服务器及数据存储均衡
文章目录HDFS-服役新服务器1 环境准备2 服役新节点具体步骤HDFS-服役新服务器Hadoop版本:3.1.3需求:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1 环境准备在 hadoop101 主机上再克隆一台 hadoop104 主机修改 IP 地址和主机名称# 修改IP地址文件vim /etc/sysconfig/network-scripts/ifcfg-ens33# 修改主机名称vim /原创 2021-10-21 16:36:41 · 443 阅读 · 0 评论 -
HDFS-添加白名单与黑名单
文章目录HDFS-添加白名单与黑名单1 添加白名单1.1 创建whitelist1.2 hdfs-site.xml添加1.3 分发hdfs-site.xml,whitelist 重启1.4 刷新NameNode1.5 在web查看DN信息2 添加黑名单2.1 创建blacklist2.2 hdfs-site.xml添加2.3 分发hdfs-site.xml,blacklist重启2.4 在web查看DN信息HDFS-添加白名单与黑名单hadoop版本:3.1.31 添加白名单白名单:表示在白名单的主原创 2021-10-21 10:30:02 · 622 阅读 · 0 评论 -
HDFS-集群数据均衡之磁盘间数据均衡
HDFS-集群数据均衡之磁盘间数据均生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x 新特性)1 生成均衡计划(一块磁盘,不会生成计划)hdfs diskbalancer -plan hadoop1022 执行均衡计划文件由上一个操作自动生成hdfs diskbalancer -execute hadoop102.plan.json3 查看当前均衡任务的执行情况hdfs diskbalancer -query had原创 2021-10-20 11:41:29 · 380 阅读 · 0 评论 -
Hadoop Yarn常用命令
文章目录Hadoop Yarn常用命令1 查看任务1.1 yarn application -list1.2 yarn application -list -appStates1.3 kill 调Application2. yarn logs 查看2.1 查看application日志2.2 查询 Container 日志3 查看尝试运行的任务3.1 列出所有 Application 尝试的列表3.2 打印 ApplicationAttemp 状态4 yarn container 查看容器4.1 列出所有原创 2021-10-20 10:16:43 · 1214 阅读 · 0 评论 -
HDFS—集群压测
文章目录HDFS—集群压测2 测试 HDFS 写性能2.1 写测试底层原理2.2 测试操作2.3 测试过程因为内存原因导致报错,yarn-site.xml做一下修改HDFS—集群压测在企业中非常关心每天从 Java 后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从 HDFS 上拉取需要的数据?HDFS 的读写性能主要受网络和磁盘影响比较大。为了方便测试,将 hadoop101、hadoop102、hadoop103 虚拟机网络都设置为 100mbps。100Mbps 单位是 bit;1原创 2021-10-19 17:57:09 · 217 阅读 · 0 评论 -
HDFS—核心参数(生产调优)
文章目录HDFS—核心参数(生产调优)1 NameNode 内存生产配置1.1 NameNode 内存计算1.2 Hadoop2.x 系列,配置 NameNode 内存1.3 Hadoop3.x 系列,配置 NameNode 内存1.3.1 相关描述及操作1.3.2 配置hadoop-env.shHDFS—核心参数(生产调优)1 NameNode 内存生产配置1.1 NameNode 内存计算每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢?128(G) *原创 2021-10-19 16:46:02 · 884 阅读 · 0 评论 -
Hadoop 配置多队列的公平调度器
文章目录Hadoop 配置多队列的公平调度器1 需求2 配置2.1 修改yarn-site.xml,加入以下参数2.1 配置fair-scheduler.xml3 分发配置并重启 YarnHadoop 配置多队列的公平调度器1 需求配置三个队列,default,develop,test提交任务无指定队列,默认提交到用户名相同的队列,无该队列则拒绝2 配置2.1 修改yarn-site.xml,加入以下参数<property> <name>yarn.resource原创 2021-10-10 16:56:22 · 668 阅读 · 0 评论 -
Hadoop 配置多队列的容量调度器及优先级配置
文章目录Hadoop 配置多队列的容量调度器1 配置多队列的容量调度器1.1 在 capacity-scheduler.xml 中配置如下1.2 分发配置文件,刷新队列Hadoop 配置多队列的容量调度器需求 1:default 队列占总内存的 40%,最大资源容量占总资源 60%,hive 队列占总内存的 60%,最大资源容量占总资源 80%。需求 2:配置队列优先级1 配置多队列的容量调度器1.1 在 capacity-scheduler.xml 中配置如下修改<!-- 指定多原创 2021-10-08 22:39:05 · 1466 阅读 · 0 评论 -
Hadoop Yarn性能调优
文章目录Hadoop Yarn性能调优1 环境2 yarn-site.xml 配置Hadoop Yarn性能调优1 环境内存vCode线程数hadoop1018G4核CPU4hadoop1028G4核CPU4hadoop1038G4核CPU42 yarn-site.xml 配置<!-- 选择调度器,默认容量 --><property> <description>The class to use as原创 2021-10-08 17:09:08 · 335 阅读 · 0 评论 -
hadoop DistributedCache缓存区
hadoop DistributedCache缓存区1. 使用场景Map Join 适用于一张表十分小、一张表很大的场景2. 解决在 Reduce 端处理过多的表,非常容易产生数据倾斜。怎么办?在 Map 端缓存多张表,提前处理业务逻辑,这样增加 Map 端业务,减少 Reduce 端数据的压力,尽可能的减少数据倾斜。3 code3.1 driver中提前设置缓存 // 加载缓存数据 文件路径 job.addCacheFile(new URI("file:///D:/input/ta原创 2021-09-30 11:34:21 · 204 阅读 · 0 评论 -
hadood centos7集群搭建
文章目录hadoop 安装1 模板虚拟机环境准备1.1 安装epel-release1.2 linux 安装的是最小系统则安装一下插件1.3 关闭防火墙,关闭防火墙开机自启1.4 创建一个用户develop1.5 配置develop用户具有root权限,方便后期加sudo执行root权限的命令1.6 在/opt目录下创建文件夹,并修改所属主和所属组1.7 卸载虚拟机自带的JDK1.8 重启虚拟机2 克隆虚拟机hadoop 安装系统环境:CentOS-7-x86_64-DVD-2009.iso1 模板原创 2021-09-14 22:59:01 · 358 阅读 · 0 评论 -
Hadoop 自定义OutputFormat
文章目录Hadoop 自定义OutputFormat1 介绍2 自定义OutputFormat2.1 说明2.2 案例伪代码Hadoop 自定义OutputFormat1 介绍OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。hadoop常见的OutputFormat实现类2 自定义OutputFormat2.1 说明应用场景例如:输出数据到MySQL/HBase/Elasticsearch/HDFS等存储原创 2021-08-20 15:47:27 · 299 阅读 · 0 评论 -
Hadoop Combiner 合并
文章目录Hadoop Combiner 合并1. 概念2. 自定义 Combiner 实现步骤Hadoop Combiner 合并1. 概念Combiner是MR程序中Mapper和Reducer之外的一种组件。Combiner组件的父类就是ReducerCombiner和Reducer的区别在于运行的位置Combiner是在每一个MapTask所在的节点运行;Reducer是接收全局所有Mapper的输出结果;Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络原创 2021-08-20 14:26:19 · 213 阅读 · 0 评论 -
Hadoop WritableComparable排序
文章目录Hadoop WritableComparable排序1 排序概念2 自定义排序 WritableComparableHadoop WritableComparable排序1 排序概念MapTask和ReduceTask均会对数据按 照key进行排序。该操作属于Hadoop的默认行为。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数 据溢写原创 2021-08-20 14:13:23 · 171 阅读 · 0 评论 -
Hadoop Map,Reducer 输出压缩
文章目录Hadoop Map,Reducer 输出压缩1 压缩位置的选择1.1 压缩参数配置2 Map,Reducer 输出端采用压缩2.1 codeHadoop Map,Reducer 输出压缩1 压缩位置的选择1.1 压缩参数配置Hadoop 引入了编码/解码器2 Map,Reducer 输出端采用压缩MapReduce 的输入输出文件都是未压缩的文件,Hadoop可以对 Map 任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到 Reduce 节点,对其压缩可以提高很多性原创 2021-08-20 11:13:39 · 229 阅读 · 0 评论 -
Hadoop 自定义Partitioner分区
文章目录Hadoop 自定义Partitioner分区1 partitionr作用2 默认Partitioner分区3 自定义Partitioner4 注意Hadoop 自定义Partitioner分区1 partitionr作用partition是分割map每个节点的结果,按照key分别映射给不同的reduce。mapreduce使用哈希HashPartitioner帮我们归类了。这个我们也可以自定义。2 默认Partitioner分区public class HashPartitioner&l原创 2021-08-19 10:10:43 · 585 阅读 · 0 评论 -
Hadoop自定义 bean 对象实现序列化-Writable
文章目录Hadoop自定义 bean 对象实现序列化接-Writable1 步骤介绍2 SpringBoot整合依赖3 案例代码Hadoop自定义 bean 对象实现序列化接-Writable在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在 Hadoop 框架内部传递一个 bean 对象,那么该对象就需要实现序列化接口。1 步骤介绍必须实现 Writable 接口反序列化时,需要反射调用空参构造函数,所以必须有空参构造public XxxBean() {super();}原创 2021-08-18 17:15:46 · 594 阅读 · 0 评论 -
HDFS 的 Shell 操作
文章目录HDFS 的 Shell 操作1 基本语法1.1 命令大全2 常用命令操作2.1 上传2.2 下载2.3 HDFS 直接操作HDFS 的 Shell 操作1 基本语法hadoop fs 具体命令 OR hdfs dfs 具体命令1.1 命令大全root@datanode:/usr/local/hadoop-2.8.3/bin# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc原创 2021-08-17 17:11:16 · 277 阅读 · 0 评论 -
Hadoop 配置文件介绍
文章目录Hadoop 配置文件介绍1 hadoop 目录结构2 hadoop 核心配置2.1 默认配置文件存储位置2.2 自定义配置文件2.3 核心配置文件-core-site.xml2.4 HDFS 配置文件-hdfs-site.xml2.5 YARN 配置文件-yarn-site.xml2.6 MapReduce 配置文件 mapred-site.xmlHadoop 配置文件介绍1 hadoop 目录结构bin 目录:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行操作原创 2021-08-16 15:07:47 · 4158 阅读 · 0 评论 -
SpringBoot 整合HDFS
文章目录SpringBoot 整合HDFS1 window本地测试前置操作2 整合代码2.1 pom2.2 code3 上传加载SpringBoot 整合HDFS1 window本地测试前置操作本地安装hadhoop2 整合代码2.1 pom <!-- hadoop--> <dependency> <groupId>org.apache.hadoop</groupId> <原创 2021-08-16 10:54:09 · 3337 阅读 · 5 评论