高性能科学数据压缩:ZLIB的替代方案
在科学数据压缩领域,寻找高效的压缩算法至关重要。本文将介绍两种高性能的ZLIB替代方案,并对其性能进行评估。
1. 两级压缩技术
两级压缩技术通过第一级压缩机显著减少数据流,将更深入的分析留给处理数据量较少的第二级压缩机。使用该技术时,高级冗余必须对第二级压缩机可见,LZ4能满足这一要求,而ZLIB生成的面向位的输出流则不太能满足。同时,第一级压缩机不能消除所有冗余,否则第二级压缩机将无法提升压缩效果。这种方法的优势在于能在更短时间内取得类似的压缩结果。
在处理高度冗余的日志数据时,该技术效果显著。例如,一个3.5GB的二进制日志文件,使用ZLIB第一次压缩到54MB,第二次压缩到17MB;使用LZ4两级压缩,第一次压缩后文件大小为56MB,第二次压缩后略超过9MB;使用高压缩比的LZ4(LZ4HC)两级压缩,第一次压缩得到44MB的文件,第二次压缩到2MB,多次压缩后文件大小为750KB。在吞吐量方面,使用ZLIB进行一次压缩需要265ms,而使用LZ4并进行两次LZ4HC压缩仅需16ms。该技术在某些文本文件上也很有效,使用LZ4和LZ4HC各压缩一次得到的文件大小与仅使用LZ4HC一次压缩的结果相似,但耗时仅为五分之一。
2. 评估压缩机性能
2.1 评估数据集
使用了来自不同背景和来源的多个数值数据集对压缩机进行测试。这些数据集涵盖六个不同学科,主要来自模拟程序,包括分子和电子结构建模、消息、数值和观测数据以及粒子碰撞模拟数据等。在对33个数据文件进行初步评估后,根据每个数据组的特性和特征,为每个数据组选择了一个具有代表性的数据文件,共选出五个数据文件。
超级会员免费看
订阅专栏 解锁全文
1158

被折叠的 条评论
为什么被折叠?



