动态马尔可夫编码(DMC):自适应数据压缩的利器
1. 数据压缩中的挑战与应对
在数据压缩领域,对于文本图像等特殊数据的处理充满挑战。以文本图像为例,为了提高压缩效果,需要高效地比较标记与符号。在判断一个标记是否为新符号时,要将其与所有库符号进行比较。这就需要一种算法,能快速判断标记和符号是否差异过大。该算法可依据两者在高度、宽度、总面积、周长或黑色像素数量等方面的显著差异来做出判断。
当标记与现有库符号有足够差异时,它会被添加到库中成为新符号。编码器会维护一个与每个库符号关联的标记列表,记录与之相似的标记。扫描完整个输入后,为了更好地压缩,每个符号会被其关联列表中所有标记的平均值替代。若某个像素在列表中超过一半的标记里为黑色,那么在平均值中该像素也设为黑色。这样不仅能提升压缩效果,还能让重建文本更美观,使有损压缩的应用更为常见。
2. 动态马尔可夫编码(DMC)概述
动态马尔可夫编码(DMC)是一种自适应的两阶段统计压缩方法,由G. V. Cormack和R. N. Horspool提出。第一阶段使用有限状态机估计下一个符号的概率,第二阶段通过算术编码器进行实际压缩,这与PPM方法类似。
有限状态机可作为数据压缩的模型,用于计算输入符号的概率。下面通过简单示例说明:
- 单状态机模型 :假设字母表包含“a”、“b”、“c”三个符号,输入流是“aaabbcaaabbc…”这样的600符号字符串。每次输入一个符号,机器输出估计概率、更新计数并保持在唯一状态。初始时,三个符号的概率均设为1/3,由于输入的规律性,很快会更新为正确值(“a”为300/600,“b”为200/600,“c”为100
超级会员免费看
订阅专栏 解锁全文
434

被折叠的 条评论
为什么被折叠?



