【数据压缩】Huffman编码

原创已于 2023-06-01 11:03:34 修改 · 221 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2015-11-20 11:26:00 首次发布

数据结构与算法专栏收录该内容

57 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Huffman编码，一种用于数据压缩的前缀码。通过建立基于字符频率的小顶堆，Huffman编码能保证高频字符编码较短，从而达到高效压缩。文中详细讨论了前缀码的概念、期望编码长度、最优编码及其与熵的关系，并提供了Python实现。

1. 压缩编码概述

数据压缩在日常生活极为常见，平常所用到jpg、mp3均采用数据压缩(采用Huffman编码)以减少占用空间。编码\(C\)是指从字符空间\(A\)到码字表\(X\)的映射。数据压缩编码指编码后信息的长度较于原始信息要短。本文试图探讨Huffman编码是如何保证唯一可译性、如何压缩、以及压缩效率如何？

前缀码

前缀码的任意一码字均不为其他码字的前缀，此保证了编码的唯一可译性。比如码字表{0, 01, 11, 1}，0为01的前缀，1为11的前缀；当遇到字符文本011100，是应分隔为01-11-0-0还是0-11-1-0-0等？若采用前缀码编码，码字表为{0, 10, 11}，则字符文本011100可即时分隔为0-11-10-0可译，所以前缀码亦被称为即时码。同时，前缀码保证了编码的唯一可译性，即字符空间\(A\)到码字表\(X\)的映射为一一映射。本文探讨的Huffman编码即为前缀码。

根据码字长度，编码分为等长编码与变长编码。等长编码即字母表中所有码字的长度均相等，最为常见的是字长7位的ASCII码。变长编码则是码字的长度可能存在不相等。

前缀码可表示为叶子节点为码字的编码二叉树，如图所示。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅唱书令 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。