新型基于单词的自适应密集压缩器解析
1. 引言
在文本压缩领域,不断有新的算法和概念被提出以提高压缩效率和性能。本文将介绍几种新型的基于密集编码思想的自适应压缩器,包括开放密集编码(Open Dense Code,ODC)、双字节密集编码(Two Byte Dense Code,TBDC)和自调优密集编码(Self-Tuning Dense Code,STDC),并通过实验对比它们与其他常见压缩算法的性能。
2. 开放密集编码(ODC)
开放密集编码(ODC)是一种新颖的密集编码概念,旨在涵盖ETDC、SCDC等基于密集编码思想的编码方式。其基本动机是允许定义一些形式化的码字规则,并与密集编码思想相结合。
2.1 ODC的定义
b - 进制开放密集编码(ODC)是一个二元组 ⟨b, G⟩,其中b是块的大小,G = (N, T, P, S) 是定义代码语法的语法。ODC为第r个最频繁的符号(从r = 0开始)分配一个k块的码字cr,需满足以下条件:
1. cr ∈L(G),确保码字cr由语法G定义。
2. cr不是任何其他码字ci ∈L(G)的前缀,保证代码是前缀码,可明确解码。
3. $\sum_{i = 1}^{k - 1} \prod_{j = 1}^{i} v_{ji} \leq r < \sum_{i = 1}^{k} \prod_{j = 1}^{i} v_{ji}$,其中$v_{ji}$是长度为i的码字中第j块可能出现的组合数,提供密集编码属性。
2.2 ETDC和SCDC的定义
根据ODC的定义,可将ETDC和SCDC定义如下:
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



