
hadoop
文章平均质量分 57
叫我莫言鸭
这个作者很懒,什么都没留下…
展开
-
关于Map的理解
这个分区合并,就是不同task的相同区号的分区进行合并,例子: task1的分区1和task2的分区1进行合并。这里的cCombiner分区合并指的是 直接在shuflle进行计算 比如 sum什么的。Shuffle中进行了分组聚合,而Reduce对分组聚合后的数据进行重新计算.设定为1时, 根本不走自定义分区器,而是Hash。如果分区数小于规则(分区数不为1) 报错。也可以通过设定reduce数量来调整分区数。分区对应的是ReduceTask。设置输入流的类来控制小文件,原创 2023-08-23 08:47:56 · 82 阅读 · 0 评论 -
Yarn与Zookeeper学习
百分比的比较,谁大就是谁控制虚拟核数就是我们自己设定的CPU核数大小,但是当物理核数时,会按照机器的实际核数进行运载,甚至超载。原创 2023-07-24 21:12:58 · 834 阅读 · 0 评论 -
关于join
思路: map负责数据整合,reduce负责进行join缺点: 数据倾斜,Reduce处理太多而Map处理的太少. 这样Reduce的负载太大了.原创 2023-07-24 09:17:56 · 83 阅读 · 0 评论 -
关于小文件切片的虚拟存储过程
【代码】关于小文件切片的虚拟存储过程。原创 2023-07-21 19:04:59 · 92 阅读 · 0 评论 -
关于Shuffle
3.到达临界点(例子80%),会直接进行区内排序,这个操作发生在缓冲区中,Map放入数据之前会默认判断缓冲区状态,满就等待.处理有序数据比无序数据比较快,为了提升MR的性能,其实我感觉还是数据的问题,因为大部分数据都是无序的.6.从磁盘中拷贝到内存,导入Reduce ,处理数据.归并排序.按K分组。4.排序后将数据取出,数据溢出.这时进行(一个task)分区合并()注意一下,存储到块时,是如果不够快大小,是以实际大小存入的.区满之后,需要区内重新排序一下,保证区内数据的有序性.原创 2023-07-21 18:27:46 · 127 阅读 · 0 评论 -
MapReduce切片
反证法:假设,我们不使用块大小来定义, 设当前块大小为128M, 片大小为100M。我们需要计算HDFS中的数据,要从里面取300M的数据。首先,第一个块取出来,切, 还剩28M,取第二个块,切72M, 然后第二块还剩56M 再取第三块,再取44M。这样的结果,显然就是将数据块的数据分割重组,这样大大增加了资源的消耗。不论是比当前块大,还是比当前块小,都避免不了数据块的分割重组,所以,与块大小一致是目前最优。原创 2023-07-20 15:28:04 · 316 阅读 · 0 评论 -
Shuffle简单理解
maptask运行结束,每个mask块自身排一下序(并行)。先copy到相应的机器,然后再重新进行一次排序。注意,应该是边复制边排序。第二次排序,是将每个reduce对应的task进行排序,然后再进入reduce。mapper和reduce是不同的机器,进行了网络传输,所以存在数据拷贝。map的结果本身是无序的,但是map输出的结果有序。原创 2023-07-19 20:12:42 · 1109 阅读 · 0 评论 -
HDFS面试(自己学习版)
大:设置太大,磁盘传输时间明显大于定位块的时间,因为块大了,块总数就相对少了,寻址时间相对少很多,而块过大,磁盘传输时间变大。与寻址时间有关:默认寻址时间为传输时间的百分之一为最优。小:块总数变多,寻址时间增大了。1s*磁盘传输速率就是块大小。假设10ms找到目标,原创 2023-07-18 19:21:36 · 1987 阅读 · 1 评论 -
HDFS与MapResource笔记
64K发到1节点,1节点立刻发给2节点,同时1节点自动开始落盘,这里,3个节点是同时落盘的. 因为缓存是在内存中,而持久化是将数据存到磁盘上.注意 当NN启动并且加载到内存后,还不能开,必须先将DN向NN注册,同时上报,以后每6小时都上报所有块信息.数据块 一个数据块带一个meta文件,meta文件就是数据块的描述信息(数据长度 校验和 时间戳)100W条数据,或者1小时到达,2NN要合并了,Edits会不会停止?7. 2NN将新的元数据发送给NN,NN更新元数据。ReduceTask数量取决于分区数量。原创 2023-07-18 18:07:54 · 1361 阅读 · 0 评论 -
Hadoop第一课之环境配置
core配置Node后端供给端口,存储目录,还有默认用户HDFS配置 页面服务端端口Yarn 配置将MR走shuffle 指定自己的ResourceManager地址 并且继承环境变量Map 指定在yarn上运行。原创 2023-07-17 19:47:23 · 668 阅读 · 0 评论