CFL选择去重的实验

最近实现了 Assuring Demanded Read Performance of Data Deduplication Storage with Backup Datasets一文中提出的算法,并用两个数据集分别进行了实验。参数分别设为cfl_require=0.6,container_usage_threshold=0.7,同时装备大小为100个container的LRU缓存。

1.linux源码集


数据集包括105个连续的linux内核版本,总数据量为40.6GB。95%为重复数据,经过选择去重后,去重率下降到78%。

使用cfl选择去重算法后,恢复性能如图所示。最初的几个作业能达到100MB/s以上,和磁盘顺序读的吞吐率差不多;后期作业的恢复性能虽有下降,但吞吐率始终维持在80MB/s以上。从CFL角度看,后期作业也能维持在0.6以上,和cfl_require相对应。与 重复数据删除系统的碎片研究文中数据相比,有很大改善。由此可看出算法对该数据集是有效的。


2.vmdk数据集


这是我使用中的虚拟机镜像,有13个版本,数据量有138GB。全局有85.6%的重复数据。选择去重后,去重率下降到42.4%。存储卷的大小从20GB上升到80GB。

不使用cfl选择去重算法,恢复性能如下图。



使用cfl选择去重算法后,恢复性能如下图。



cfl选择去重可以有效地提高恢复性能。但是算法最大的不足是去重率损失太大,本质原因是将内部碎片当做外部碎片同时重写。

转载于:https://www.cnblogs.com/opennaive/p/3312764.html

内容概要:本文档为《400_IB Specification Vol 2-Release-2.0-Final-2025-07-31.pdf》,主要描述了InfiniBand架构2.0版本的物理层规范。文档详细规定了链路初始化、配置与训练流程,包括但不限于传输序列(TS1、TS2、TS3)、链路偏斜、波特率、前向纠错(FEC)支持、链路速度协商及扩展速度选项等。此外,还介绍了链路状态机的不同状态(如禁用、轮询、配置等),以及各状态下应遵循的规则和命令。针对不同数据速率(从SDR到XDR)的链路格式化规则也有详细说明,确保数据包格式和控制符号在多条物理通道上的一致性和正确性。文档还涵盖了链路性能监控和错误检测机制。 适用人群:适用于从事网络硬件设计、开发及维护的技术人员,尤其是那些需要深入了解InfiniBand物理层细节的专业人士。 使用场景及目标:① 设计和实现支持多种数据速率和编码方式的InfiniBand设备;② 开发链路初始化和训练算法,确保链路两端设备能够正确配置并优化通信质量;③ 实现链路性能监控和错误检测,提高系统的可靠性和稳定性。 其他说明:本文档属于InfiniBand贸易协会所有,为专有信息,仅供内部参考和技术交流使用。文档内容详尽,对于理解和实施InfiniBand接口具有要指导意义。读者应结合相关背景资料进行学习,以确保正确理解和应用规范中的各项技术要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值