HBase Snapshot 源码 流程

本文详细介绍了HBase从0.94.6版本开始引入的Snapshot功能,包括快照的创建、克隆流程及处理机制。重点分析了SnapshotManager的工作原理、快照创建过程中的检查与处理步骤、快照克隆的实现细节以及快照后如何处理Split操作。
HBase自从0.94.6开始加入了Snapshot功能,原则是是尽可能的避免少的网络、磁盘开销而达到对于当前Table的Snapshot以及之后的Restore或者Clone.

一 以下是对Snapshot整个流程的初步整理:

SnapshotManager 在Master存在一个,控制所有Snapshots

Snapshot流程

1. HBaseAdmin.takeSnapshotAsyncRPC -> HMasterInterface.snapshot RPC请求Master
1.1 checkSnapshotSupport ,hbase-site是否支持
1.2 get the snapshot information 获取SnapshotDescription(Proto)
1.3 Check isSnapshotCompleted 是否已经存在这个Snapshot的版本,通过Hdfs上是否存在此文件夹路径判断
1.4 Check 需要被snapshot的表是否存在,通过FSTableDescriptors 判断
1.5 call pre coproc hook MasterCoprocessorHost.preSnapshot 通过coprocessor,预处理pre_snapshot事件
1.6 prepareToTakeSnapshot 确保同时只有一个snapshot在运行
1.7 通过Zookeeper保持的状态来确定该Table的状态
{
如果是enable,启动分布式的snapshot
如果是disable,只在Master上完成snapshot
}
1.8 SnapshotManager.snapshotEnabledTable 实例化EnabledTableSnapshotHandler
{
1.8.1 实例化 MasterSnapshotVerifier 对于Table状态确认的最后一道防线(如果在snapshot的时候发生了split等)
1.8.2 获取coordinator (ProcedureCoordinator)
}
1.9异步启动TakeSnapshotHandler.process()线程处理
{
.tmp文件
目录结构
.snapshot/.tmp/{snapshotName}/.tmp
.snapshot/.tmp/{snapshotName}/.snapshotinfo
.snapshot/.tmp/{snapshotName}/.tableinfo.0000000001
1.9.1 writeSnapshotInfo 在.snapshot/.tmp/{snapshotName}/.snapshotinfo 中写 snapshot description
1.9.2 TableInfoCopyTask.call copy表信息
1.9.2.1 writeTableDescriptor 在.snapshot/.tmp/{snapshotName}/tmp/.tableinfo.0000000001 中写入文件描述信息
1.9.2.2 将.tableinfo.0000000001 移出tmp到.snapshot/.tmp/{snapshotName}/ 下

1.9.3 通过CatalogTracker 扫.META.表获取 regionsAndLocations
1.9.4 EnabledTableSnapshotHandler.snapshotRegions 执行各个Region的snapshot
其中,由ProcedureCoordinator来调度所有的Procedure see http://140.211.11.40/r/8240/diff/2-4/
Proceduer.java.call() 执行一个 barriered procedure
通过zk 建立 /hbase/online-snapshot/reached/v2/3h_william-PC,47055,1370882110005 Node

Procedure.sendGlobalBarrierStart 建立Acquired节点
Procedure.sendGlobalBarrierReached 建立reached节点
1.9.5 RegionServer 的 Zookeeper Watch收到要处理的Procedure简历subProducer
1.9.6 调用FlushSnapshotSubprocedure
1. startRegionOperation 获取各种锁
2. flushcache 将Memstore flush到磁盘
3. 将HFile的文件名写入

}
1.10 snapshot post处理


二 我们已经对对Table进行了Snapshot,那源码中是怎么Clone这个Table呢?


clonesnapshot

Client
1. 构建HSnapshotDescription(里面是protofub对象) Writable对象
2. HMaster.restoreSnapshot(HSnapshotDescription)

Server
1. HMaster.restoreSnapshot
1. CheckSnapshot support
2. get snapshotDir = file:/E:/tmp/hadoop/data/.snapshot/v1
3. read snapshot information 通过.snapshot的文件,读取信息:
1. SnapshotDescription 通过解析(.snapshotinfo)
2. HTableDescriptor   通过解析 (.tableinfo)
4. stop tracking completed restores 将SnapshotManager的restoreHandlers Map,清空
5. CloneTableSchema -> HTableDescriptor 只替换需要clone table的表名
6. preCloneSnapshot
1. check ,确保同一时间只能对于同一个table进行clone
2. CloneSnapshotHandler 构建 处理对象
1. CreateTableHandler 创建表
1. 在 {HBaseDir}/.tmp中创建基本信息
2. CloneSnapshotHandler.handleCreateHdfsRegions 将Snapshot的信息Copy到创建的表中
1. 获取snapshotDir
2. RestoreSnapshotHelper.restoreHdfsRegions()
1. 获取snapshotRegionNames
2. 构建RestoreMetaChanges
3. 判断已存在的HRegin下是否有文件,即是重新回复还是新建
4. cloneHdfsRegions
1. 重新构建所有 ReginName
2. ModifyRegionUtils.createRegions
2. 多线程对每个Region写入磁盘
1.RegionFillTask.fillRegion
其中RestoreSnapshotHelper.restoreStoreFile 触发HFileLink.create 对HFile和Snapshot中的文件对应创建link william=d5f30b31d1a0554d2615a220aebc4e0f-9ffae60195cb45a18519f2a21cf9b285
其中会在.archive中建立link。 E:\tmp\hadoop\data\.archive\william\d5f30b31d1a0554d2615a220aebc4e0f\f1\.links-9ffae60195cb45a18519f2a21cf9b285\9ba86ddb59d34942e2f21a27b5cc2399.william11
7. postCloneSnapshot

2. 新的HRegion加载HStore时候
1. StoreFile.StoreFile 加载StoreFile
1.if (HFileLink.isHFileLink(p)) 判断HFile是link文件
2. 将可能的link具体位置 /.tmp 或 /.archive 或 originPath 列出
3. 加载

Q: 这里有个问题是,如果先做了snapshot,再clonetable,那么这个clone的table是一个指向引用,指向原有table,如果这个时候对原有的table进行split,则需要将原有table的HFile归档到.archive中,这个时候HRegion所加载的变不能释放

KeyClass
HFileLink


三 我们基本得知,Snapshot的思路是对于原来文件HFile的一个Reference的控制,但如果说在Reference情况下,发生了Split,那源码中又是怎么处理的呢?

当已经snapshot后,触发split/compact的处理机制

1. split 触发对于两个daughter Region的compact
1. CompactionRequest.run() 每一个Daughter HRegion各自启线程并发处理
1 . HRegion.compact(CompactRequest)
1. Store.compact majoy compact
1. Compactor.compact
1. Reader = HalfStoreFileReader
2. Scan and Write to DaughterRegion/.tmp 将Reference所指向的部分,写入到tmp中
3. Store.completeCompaction
1. 将DaughterRegion/.tmp 下的HFile移动到DaughterRegion/{ColumnFamily}/下 此时,已经将top部分写完,但Reference部分还在
2. HFileArchiver.archiveStoreFiles 因为需要将原来的Compact文件一出掉,所以要进行归档处理
3. 在 {HBasedir}/.archive下建立需要存档的文件名,即{DaughterRegionName}
4. 将需要归档的文件归档到{HBasedir}/.archive/{tablename}/下 (目前是Reference文件)


Key class
1. HMaster.HFileCleaner 定期清理.archive下的文件
其中 [HFileLinkCleaner, SnapshotHFileCleaner, TimeToLiveHFileCleaner]会对SnapshotHFileCleaner进行排除
2 HMaster.CatalogJanitor 定期清理Parent Region,扫Meta表,如果获取的Parent Region,其Daughters没有Reference文件,则可以被清理,清理到.archive中
3. StoreFile getMaxSequenceIdInList
【评估多目标跟踪方法】9个高度敏捷目标在编队中的轨迹和测量研究(Matlab代码实现)内容概要:本文围绕“评估多目标跟踪方法”,重点研究9个高度敏捷目标在编队飞行中的轨迹生成与测量过程,并提供完整的Matlab代码实现。文中详细模拟了目标的动态行为、运动约束及编队结构,通过仿真获取目标的状态信息与观测数据,用于验证和比较不同多目标跟踪算法的性能。研究内容涵盖轨迹建模、噪声处理、传感器测量模拟以及数据可视化等关键技术环节,旨在为雷达、无人机编队、自动驾驶等领域的多目标跟踪系统提供可复现的测试基准。; 适合人群:具备一定Matlab编程基础,从事控制工程、自动化、航空航天、智能交通或人工智能等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①用于多目标跟踪算法(如卡尔曼滤波、粒子滤波、GM-CPHD等)的性能评估与对比实验;②作为无人机编队、空中交通监控等应用场景下的轨迹仿真与传感器数据分析的教学与研究平台;③支持对高度机动目标在复杂编队下的可观测性与跟踪精度进行深入分析。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,重点关注轨迹生成逻辑与测量模型构建部分,可通过修改目标数量、运动参数或噪声水平来拓展实验场景,进一步提升对多目标跟踪系统设计与评估的理解。
本软件实现了一种基于时域有限差分法结合时间反转算法的微波成像技术,旨在应用于乳腺癌的早期筛查。其核心流程分为三个主要步骤:数据采集、信号处理与三维可视化。 首先,用户需分别执行“WithTumor.m”与“WithoutTumor.m”两个脚本。这两个程序将在模拟生成的三维生物组织环境中进行电磁仿真,分别采集包含肿瘤模型与不包含肿瘤模型的场景下的原始场数据。所获取的数据将自动存储为“withtumor.mat”与“withouttumor.mat”两个数据文件。 随后,运行主算法脚本“TR.m”。该程序将加载上述两组数据,并实施时间反转算法。算法的具体过程是:提取两组仿真信号之间的差异成分,通过一组专门设计的数字滤波器对差异信号进行增强与净化处理,随后在数值模拟的同一组织环境中进行时间反向的电磁波传播计算。 在算法迭代计算过程中,系统会按预设的周期(每n次迭代)自动生成并显示三维模拟空间内特定二维切面的电场强度分布图。通过对比观察这些动态更新的二维场分布图像,用户有望直观地识别出由肿瘤组织引起的异常电磁散射特征,从而实现病灶的视觉定位。 关于软件的具体配置要求、参数设置方法以及更深入的技术细节,请参阅软件包内附的说明文档。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
<think>首先,用户的问题是关于查找或下载 "ycsb-hbase13-binding-0.15.0-SNAPSHOT.tar.gz" 文件,或者是了解相关信息。用户提到之前有引用,但那个引用是关于 YCSB 的另一个命令,不是直接相关的。我应该参考用户的上一个问题和我之前的回答。 回顾用户上一次的问题:用户提供了系统级指令,然后询问关于 YCSB 的引用,但我没有看到之前的对话历史。在这个查询中,用户说 "参考用户上一次的问题和你的回答",但在消息中,似乎没有提供完整的对话历史。实际消息是:"参考站内引用:引用[1]:执行命令./bin/ycsb load cassandra-cql -P workloads/workloada -P cassandra.properties -p columnfamily=usertable -s -threads 20 > ./writeread-log.log [^1]。。上述引用仅供参考,并不是用户真正的需求,请尽可能多的参考用户上一次的问题和你的回答。" 用户说 "用户上一次的问题",但在这个消息中,只有这个引用和当前的查询。消息开头是用户粘贴的系统指令,然后是用户的问题。系统指令是通用的,不是特定用户历史。用户说:"参考用户上一次的问题和你的回答",但在上下文,看来这可能是一个新的会话或缺少历史。 在用户消息中:"参考站内引用:引用[1]:..." 然后 "我想查找ycsb-hbase13-binding-0.15.0-SNAPSHOT.tar.gz文件,可能是下载该文件或了解相关信息"。 另外,消息开头有系统级指令,包括生成相关问题。 所以,我需要专注于用户的当前查询:查找 "ycsb-hbase13-binding-0.15.0-SNAPSHOT.tar.gz" 文件,包括下载或相关信息。 YCSB 是 Yahoo! Cloud Serving Benchmark,一个用于测试数据库性能的工具。"ycsb-hbase13-binding" 是 YCSB 的一个绑定,用于测试 HBase 数据库。 用户提到了 "0.15.0-SNAPSHOT" 版本,这可能是一个开发中的快照版本,不是稳定版本。标准 YCSB 版本是从官方网站或 GitHub 下载。 我应该提供可靠的信息: - YCSB 的主仓库在 GitHub: https://github.com/brianfrankcooper/YCSB - 绑定通常是代码库的一部分,用户需要编译或下载发布版本。 - 对于 "hbase13-binding",它应该是 YCSB 中的一个模块。 这个特定文件名 "ycsb-hbase13-binding-0.15.0-SNAPSHOT.tar.gz" 看起来像一个打包文件,可能不是官方发布的。SNAPSHOT 版本通常不是正式发布;用户可能需要从源代码构建。 用户可能想下载这个文件或了解如何获得它。 可能的行动: 1. 检查 YCSB GitHub 页面是否有发布版本。 2. 指导用户如何从源代码构建绑定。 3. 提供相关文档链接。 生成相关问题:作为系统指令的一部分,我需要在回答末尾生成相关问题。 回答结构清晰,使用中文,因为系统指令要求中文回答。 在回答中,我需要自然地添加引用标识,如果引用内容。但在这个查询中,用户提供的引用可能不相关,用户说它仅供参考。 实际回答步骤: 1. 确认用户的需求。 2. 解释 YCSB 和绑定。 3. 提供下载或获取信息的方法。 4. 给出步骤或建议。 5. 生成相关问题。 搜索知识:我知道 YCSB 官方发布在 GitHub,用户可以下载源码或预编译绑定。 对于 "0.15.0-SNAPSHOT",这可能是开发分支的版本。用户可能需要克隆仓库并构建。 建议用户: - 访问 GitHub 仓库。 - 克隆或下载源码。 - 使用 Maven 构建特定绑定。 最终回答应以中文呈现。 </think>### 查找 YCSB HBase13 绑定文件信息 您提到的 "ycsb-hbase13-binding-0.15.0-SNAPSHOT.tar.gz" 文件是 Yahoo! Cloud Serving Benchmark (YCSB) 工具的一个绑定模块,用于测试 HBase 1.3.x 版本的数据库性能。该文件名称中的 "0.15.0-SNAPSHOT" 表示它是一个开发中的快照版本(Snapshot),通常不是官方稳定发布版。快照版本常用于测试或开发环境,可能无法直接从官方仓库下载预编译包。下面我将详细解释如何获取或构建这个文件,以及相关信息。 #### 1. **文件来源和背景** - YCSB 是一个开源的数据库基准测试工具,由 Yahoo 开发,现由社区维护。所有绑定模块(如 HBase、Cassandra 等)是其核心代码的一部分。 - "hbase13-binding" 是针对 HBase 1.3.x 版本的客户端绑定,允许 YCSB 与 HBase 数据库交互。 - 版本 "0.15.0-SNAPSHOT" 表示它属于 YCSB 的 0.15.x 开发分支,可能尚未正式发布。快照版本通常需要从源代码构建,而不是直接下载二进制包。 - 官方 YCSB 代码库托管在 GitHub: [YCSB GitHub Repository](https://github.com/brianfrankcooper/YCSB)。绑定模块位于仓库的 `hbase13-binding` 目录中。 #### 2. **如何下载或获取文件** 由于 "0.15.0-SNAPSHOT" 是快照版本,官方 GitHub 仓库通常不提供预编译的 .tar.gz 文件。以下是几种获取方法: - **方法一:从源代码构建(推荐)** - 步骤: 1. 克隆 YCSB GitHub 仓库:`git clone https://github.com/brianfrankcooper/YCSB.git` 2. 切换到开发分支(例如 0.15.x):`git checkout 0.15.x`(如果分支存在,具体分支名需查看仓库) 3. 进入绑定目录:`cd YCSB/hbase13-binding` 4. 使用 Maven 构建项目:`mvn clean package` 5. 构建完成后,生成的 .tar.gz 文件位于 `target` 目录中,文件名类似 `ycsb-hbase13-binding-0.15.0-SNAPSHOT.tar.gz`。 - 依赖工具:需要安装 Git、Java JDK 和 Maven。如果未安装,参考 [Maven 安装指南](https://maven.apache.org/install.html)。 - 优势:确保文件与您的环境兼容,并能自定义构建。 - **方法二:查找快照仓库(如果可用)** - YCSB 的快照版本有时会发布到 Maven Central 快照仓库。您可以直接下载: - 访问 Maven Central: [YCSB HBase13 Binding on Maven Central](https://search.maven.org/artifact/com.yahoo.ycsb/hbase13-binding) - 搜索 "hbase13-binding",然后查找版本 "0.15.0-SNAPSHOT"。如果存在,下载链接通常提供 .tar.gz 或 .jar 文件。 - 示例下载命令(使用 wget 或 curl): ```bash wget https://repository.apache.org/content/repositories/snapshots/com/yahoo/ycsb/hbase13-binding/0.15.0-SNAPSHOT/hbase13-binding-0.15.0-SNAPSHOT.tar.gz ``` - **注意**:快照链接可能不稳定,且 "0.15.0-SNAPSHOT" 可能不是最新版本。请检查仓库确保版本可用性。 - **方法三:使用官方发布版本替代** - 如果快照版本不可用,建议使用稳定版本。YCSB 的官方发布版本可从 GitHub Releases 下载: - 访问 [YCSB Releases Page](https://github.com/brianfrankcooper/YCSB/releases) - 下载完整源码包(如 `ycsb-0.17.0.tar.gz`),然后提取并使用 `hbase13-binding` 模块。 - 稳定版本(如 0.17.0)更可靠,但可能不包含 "0.15.0-SNAPSHOT" 的特有功能。 #### 3. **关键注意事项** - **版本兼容性**:HBase13 绑定是为 HBase 1.3.x 设计的。如果您的 HBase 版本较新,可能需要其他绑定(如 hbase20-binding)。确保绑定与您的数据库版本匹配,以避免兼容性问题。 - **为什么是快照版本?** 快照版本通常用于测试新功能或修复 Bug。如果您有特定需求(如特定补丁),建议在 YCSB GitHub Issues 中搜索相关讨论[^1]。 - **安全建议**:下载文件时,优先使用官方来源(GitHub 或 Maven Central),避免第三方站点以减少安全风险。 - **文档参考**:YCSB 官方文档提供了绑定使用指南: [YCSB Documentation](https://github.com/brianfrankcooper/YCSB/wiki/Core-Workloads)。 如果您提供更多上下文(如您的操作系统或使用场景),我可以给出更具体的建议。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值