利用哈夫曼树进行文本压缩及解压(步骤)

  1. 首先这里的文本是指可以转字符串的(其他文件的压缩类似)
  2. 本文不关注实现,实现在后续的文章会继续补充
  3. 细节优化会慢慢更新

哈弗曼树

即最优二叉树
带权路径长度达到最小的二叉树
一个哈弗曼树中离根节点最近的叶子 权重最大

字符串/文本统计

“ 我说切克,你说闹,呦呦切克闹,我们一起切克闹.”
字符:频度 —>编码
, : 3 —>0x01
闹 : 3 –>0x02
说 : 2 –>0x03
切克 : 2 –>0x04
呦 : 2 –>0x05
一起 : 1 –>0x06
我 : 1 –>0x07
我们 :1 –>0x08
你 : 1 –>0x09
. :0x0a

替换、压缩

按字符出现的频度作为权重 组建哈夫曼树
把字符和编码映射存入 叶子中
同时原字符串替换成
[0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]
存储的时候存的是二进制的数据,比存字符串要小很多。见下

let str = "我说切克,你说闹,呦呦切克闹,我们一起切克闹."
        let data = str.dataUsingEncoding(NSUTF8StringEncoding)
        print(data)
        print(data!.length)

        var bytes  = [0x07,0x03,0x04,0x01,0x09,0x03,0x02,0x01,0x05,0x05,0x04,0x02,0x01,0x08,0x06,0x04,0x02,0x0a]

        let data2 =  NSMutableData()
        for var i = 0 ; i < bytes.count ; i++
        {
        data2.appendBytes(&bytes[i], length: 1)
        }

        print(data2)
        print(data2.length)

log:

<e68891e8 afb4e588 87e5858b efbc8ce4 bda0e8af b4e997b9 efbc8ce5 91a6e591 a6e58887 e5858be9 97b9efbc 8ce68891 e4bbace4 b880e8b5 b7e58887 e5858be9 97b92e>
67
<07030401 09030201 05050402 01080604 020a>
18

而压缩文件存的时候要加入一个编码映射表。

解压

先取出编码映射表(哈夫曼树存储的)
, —>0x01
闹 –>0x02
说 –>0x03
切克 –>0x04
呦 –>0x05
一起 –>0x06
我 –>0x07
我们 –>0x08
你 –>0x09
然后取出<07030401 09030201 05050402 01080604 020a>对照替换即可
还原得到
“我说切克,你说闹,呦呦切克闹,我们一起切克闹.”

综合实验: 1. 问题描述 利用哈夫曼编码进行通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。这要求在发送端通过一个编码系统对待传输数据预先编码,在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站编写一个哈夫曼码的编/译码系统。 2. 基本要求 一个完整的系统应具有以下功能: (1) I:初始化(Initialization)。从终端读入字符集大小n,以及n个字符和n个权值,建立哈夫曼,并将它存于文件hfmTree中。 (2) E:编码(Encoding)。利用已建好的哈夫曼(如不在内存,则从文件hfmTree中读入),对文件ToBeTran中的正文进行编码,然后将结果存入文件CodeFile中。 (3) D:译码(Decoding)。利用已建好的哈夫曼将文件CodeFile中的代码进行译码,结果存入文件Textfile中。 (4) P:印代码文件(Print)。将文件CodeFile以紧凑格式显示在终端上,每行50个代码。同时将此字符形式的编码文件写入文件CodePrin中。 (5) T:印哈夫曼(Tree printing)。将已在内存中的哈夫曼以直观的方式(比如)显示在终端上,同时将此字符形式的哈夫曼写入文件TreePrint 中。 3. 测试数据 用下表给出的字符集和频度的实际统计数据建立哈夫曼,并实现以下报文的编码和译码:“THIS PROGRAME IS MY FAVORITE”。 字符 A B C D E F G H I J K L M 频度 186 64 13 22 32 103 21 15 47 57 1 5 32 20 字符 N O P Q R S T U V W X Y Z 频度 57 63 15 1 48 51 80 23 8 18 1 16 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值