
Hadoop
1024276449
这个作者很懒,什么都没留下…
展开
-
Hadoop 怎么分片
HDFS 存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为 64MB。与单磁盘文件系统相似,存储在 HDFS 上的文件均存储为多个块,不同的是,如果某文件大小没有到达 64MB,该文件也不会占据整个块空间。在分布式的 HDFS集群上,Hadoop 系统 保证一个块存储在一个 datanode 上。HDFS 的 namenode 只存储整个文件系统的元数据镜像,这个镜像由配置 dfs.name.dir 指定,datanode 则存有文件的 metainfo 和具原创 2021-05-20 22:36:36 · 641 阅读 · 0 评论 -
小文件的产生和解决
一、小文件是如何产生的1.现在的实时场景下基于每小时的每天的和每周的计算越来越多但是产生的数据大小可能不会超过10M。2.可能数据集本身就含有大量小文件,并未通过任何处理就拷贝到我们的HDFS当中时会产生。3.当我们的每个reduce都会产生一个文件,或者我们产生数据倾斜时,某个reduce数据过大,则其它的数据会很小。二、小文件产生的影响1.NameNode:会损耗NameNode的使用寿命,因为没产生一个小文件就会产生一份元数据并存储到NameNode内存中,元数据信息包括:文件名、文件原创 2021-04-20 21:42:08 · 954 阅读 · 0 评论 -
为什么说Spark比Hadoop快
当被问到为什么Spark比Hadoop快时候,得到的答案往往是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。1、Spark vs MapReduce ≠ 内存 vs 磁盘其实Spark和MapReduce的计算都发生在内存中,区别在于:MapReduce通常需要将原创 2021-04-19 13:58:16 · 821 阅读 · 0 评论 -
Hadoop之Yarn
1.工作机制(1)首先由MR程序所提交到的客户端节点向RM申请一个Application。(2)完了RM会给客户端节点一个地址需要将执行的文件以及配置信息还有切片数通过这个地址提交回给RM。(3)此时RM会将其申请做成一个Task并将其添加到调度队列中。(4)这时如果有资源NodeManager就会将Task任务领取过来在内部Container获取之前提交过来的切片数量并返回给RM。(5)去申请相应数量的NodeManager并在内部创建一个Container去完成MapTask.(6)当Map原创 2021-03-31 15:24:00 · 63 阅读 · 0 评论