- 博客(6)
- 收藏
- 关注
原创 MVCC
功能通过维护数据历史版本,从而解决并发情况下的读一致性问题。核心内容主要包含了:版本链:每一个数据行包含两个隐藏数据,事务id和回滚指针,将每一次更改通过回滚指针连起来。事务链表:事务开始的时候,就会加入事务链表。提交后,就会在事务链表中删除。ReadView:一个事务在开始执行SQL的时候,会先创建一个ReadView。该ReadView存储着事务链表。通过判断要访问的事务是否在ReadView中,从而判断该事务里的数据该不该读。版本链每一个数据行有两个隐藏的数据列(实际上,如果数据
2021-05-11 14:04:08
117
原创 Hadoop Yarn工作机制
Yarn(yet another resource negotiator 另一种资源协调者)核心思想:资源的管理和Job的调度/监控进行分离Yarn产生的原因比较:Hadoop v1.0大量的数据提交给Job Tracker,JT需要协调无数的DN,导致JT可能成为性能瓶颈假设用户提交了6个job,每个job需要1g内存,且数据都在DN2上,但是DN2只有4g内存,所以只有job1-4在DN2上运行,job5、6在等待,而DN1和DN3的资源没有使用。为了减少Job Tracker的性能
2021-01-05 15:17:25
197
原创 Hadoop ResourceManager资源调度器
FIFO队列容量调度器(Capacity Scheduler)(Yarn默认使用)支持多个队列,每个队列可分配一定的资源量,每个队列采用FIFO策略对同一用户提交的作业所占资源量进行限定有一个队列专门运行小任务(专门设置一个小队列会预先占用一定资源,会导致大任务的执行时间落后于FIFO调度器的时间)将应用放置在哪个队列中,取决于应用本身(可以修改)。队列属性、数量均可以修改公平调度器(Fair Scheduler)不需要预先占用一定的系统资源,Fair调度器会为所有运..
2021-01-05 15:15:26
203
原创 Hadoop MapReduce工作流程
## MapReduce框架## Block块、切片、MapTask的关系1. BlockSize在hadoop2.x为128M2. split切片为逻辑概念,默认SplitSize = BlockSize,也可以自行设置3. 一个job在Map阶段的并行度由job提交时的切片数量决定4. 切片时,针对每
2021-01-05 15:13:02
271
原创 Hadoop 任务推测执行
推测执行机制发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果。推测执行任务的前提条件每个Task只能有一个备份任务当前Job已完成的Task必须不小于0.05(5%)开启推测执行参数设置。mapred-site.xml文件中默认是打开的。不能启动推测执行的情况任务间存在严重的负载倾斜;特殊任务,比如任务向数据库中写数据。推测执行算法原理estimateEndTime = estima
2021-01-05 15:08:34
282
原创 剑指Offer
剑指Offer题目1.面试题03. 数组中重复的数字找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例 1:输入:[2, 3, 1, 0, 2, 5, 3]输出:2 或 3class Solution { public int findRepeatNumber(int[] nums) { Set<Int
2020-05-23 00:21:06
165
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人