数据压缩的多种方法及稀疏字符串处理策略
在数据处理领域,数据压缩是一项至关重要的技术,它能够有效减少数据存储空间,提高数据传输效率。本文将详细介绍几种不同的数据压缩方法,包括基于上下文相似性的排序方法以及针对稀疏字符串的多种压缩策略。
基于上下文相似性的排序方法
上下文相似性排序方法是符号排序方法和Burrows - Wheeler方法的“近亲”,与Burrows - Wheeler方法不同的是,它具有自适应的特点。该方法利用上下文相似性对之前出现的上下文按反向字典序进行排序,基于排序后的上下文序列为下一个符号分配一个排名,这些排名会被写入压缩流,解码器随后利用这些排名重建原始数据。压缩流还包含每个不同输入符号的原始格式数据,解码器也会使用这些数据。
编码器的工作原理
编码器逐个读取输入符号,并维护一个已排序的(上下文,符号)对列表。当输入下一个符号时,编码器将新的(上下文,符号)对插入到列表的适当位置,并使用该列表为符号分配排名。排名会被编码器写入压缩流,有时还会紧跟符号的原始格式。
以字符串“bacacaba”为例,当前列表如下:
| # | context | symbol |
| — | — | — |
| 0 | λ | b |
| 1 | ba | c |
| 2 | bacacaba | x |
| 3 | baca | c |
| 4 | bacaca | b |
| 5 | b | a |
| 6 | bacacab | a |
| 7 | bac | a |
| 8 | bacac | a |
超级会员免费看
订阅专栏 解锁全文
977

被折叠的 条评论
为什么被折叠?



