hadoop
文章平均质量分 85
尚硅谷hadoop知识
b u g
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop的HA搭建遇见的两个坑
坑一:Namenode有一个无法启动 Unable to determine input streams from QJM to [192.168.98.166:8485, 192.168.98.167:8485, 192.168.98.] 2021-03-11 21:16:30,478 WARN org.apache.hadoop.hdfs.server.namenode.FSEditLog: Unable to determine input streams from QJM to [192.168.9转载 2021-06-14 19:49:11 · 1016 阅读 · 0 评论 -
Hadoop优化方法
MapReduce程序效率瓶颈在于两点: 1.计算机性能:CPU、内存、磁盘、网络 2.IO操作: 数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待过久 小文件过多 大量不可分的超大文件 Spill次数过多 Merge次数过多 MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。 一、数据输入 合并小文件:在执行MR任务前将小文件进行合并,大量的小文件会产生大量的Map任务,增大Map.转载 2021-05-31 17:22:56 · 778 阅读 · 0 评论 -
Yarn资源调度器
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的因哟给程序。 一、Yarn基本架构 Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。 1)ResourceManager主要作用: 处理客户端请求 监控NodeManager 启动或监控ApplicationMaster 资源的分配与调度 2)NodeMan.转载 2021-05-31 16:18:15 · 301 阅读 · 0 评论 -
Hadoop数据压缩
一、概述 压缩技术可以有效减少底层存储(HDFS)读写字节数。压缩提高了网络带宽与磁盘空间效率。在运行MR时,IO、网络数据传输、Shuffle和Merge要花费大量时间,尤其是数据规模很大和负载密集的情况下,因此使用数据压缩显得非常重要。 磁盘IO和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘IO和网络传输非常有帮助,可以在任意阶段启用压缩。采用压缩技术减少了磁盘IO,但同时也增加了CPU的运算负担,压缩技术运用得当可以提高性能,但运用不当也可能降低性能。 基本原则: 运算密集型原创 2021-05-30 20:09:06 · 260 阅读 · 1 评论 -
MapReduce框架原理
一、InputFormat数据输入 1.1 切片于MapTask并行度决定机制 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 那么: 1G的数据,启动8个MapTask,可以提高集群的并发处理能力。 那么1K的数据,也启动8个MapTask,会提高集群性能吗? MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度? 先了解两个概念: 数据块:数据块(Block)是HDFS物理上把数据分成一块一块的。 数据切片:数据切片只是逻辑上对输入数据进原创 2021-05-30 15:33:53 · 350 阅读 · 0 评论 -
MapReduce概述
一、定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分十四运算程序,并发运行在一个Hadoop集群上 ...原创 2021-01-27 16:55:53 · 302 阅读 · 0 评论 -
HDFS的shell操作
基本语法 bin/hadoop fs 具体命令 或者 bin/hdfs dfs 具体命令 dfs是fs的实现类 常用命令: -help:输出这个命令参数 [hadoop100@hadoop104 subdir0]$ hadoop fs -help rm -rm [-f] [-r|-R] [-skipTrash] <src> ... : Delete all files that match the specified file pattern. Equivalent to t原创 2021-01-17 11:28:24 · 178 阅读 · 0 评论 -
Hadoop运行模式
一、安装Hadoop与JDK 将JDK与Hadoop的安装包上传到虚拟机,并进行解压 解压命令: tar -zxvf 文件名 或者解压到指定路径 tar -zxvf 文件名 -C 文件路径 修改环境变量/etc/profile # JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_144 # jdk坐在的位置 export PATH=$PATH:$JAVA_HOME/bin # HADOOP_HOME export HADOOP_HOME=/opt/mo原创 2021-01-16 23:16:22 · 320 阅读 · 0 评论 -
大数据生态
一、Hadoop是什么? 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 二、Hadoop发展史 Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。 2001年年底Lucene成为Apache基金会的一个子项目。 对于海量数据原创 2021-01-15 17:20:50 · 2243 阅读 · 0 评论
分享