数据压缩学习实验(四)LZW压缩算法的C++实现及其效率分析

实验目的:

掌握词典编码的基本原理,阅读C语言实现的LZW算法并用C++按自己理解实现LZW解码器并分析编解码算法,以及LZW算法对不同文件的压缩效果。

LZW算法原理:

关于更具体的图解LZW编解码可以参考:超级简单的数据压缩算法—LZW算法

编码部分:

在这里插入图片描述
简单地讲,LZW的编码就是不断将目前字符‘c’与上一个字符串P串成一个新串,并与词典中已有串进行不断比对,若新串P+‘c’在词典中,则将P+‘c’的索引赋给P并读取下一个字符;若P+‘c’不在词典中,则发送码字P的索引,并将P+‘c’写入词典。该算法压缩任何文件时均以字符串的形式读入数据。
注:原理上是这样解释,但在编程时有个坑,在C++中使用fstream操作文件流时仍需按ios::binary形式打开文件,否则会遇到读入的时候若读到与EOF相同的字节程序会认为文件结束,从而引发错误。这里读入一个字符更准确的解释是读入一个unsigned char型数据。

以下是教材中对于LZW编码的解释:

LZW编码原理和实现算法
LZW的编码思想是不断地从字符流中提取新的字符串,通俗地理解为新“词条”,然后用“代号”也就是码字表示这个“词条”。这样一来,对字符流的编码就变成了用码字去替换字符流,生成码字流,从而达到压缩数据的目的。LZW编码是围绕称为词典的转换表来完成的。LZW编码器通过管理这个词典完成输入与输出之间的转换。LZW编码器的输入是字符流,字符流可以是用8位ASCII字符组成的字符串,而输出是用N位(例如12位)表示的码字流。LZW编码算法的步骤如下:
步骤1:将词典初始化为包含所有可能的单字符,当前前缀P初始化为空。
步骤2:当前字符C=字符流中的下一个字符。
步骤3:判断P+C是否在词典中
(1)如果“是”,则用C扩展P,即让P=P+C,返回到步骤2。
(2)如果“否”,则
输出与当前前缀P相对应的码字W;
将P+C添加到词典中;
令P=C,并返回到步骤2

解码部分:

在这里插入图片描述
对于LZW的解码,可以认为是这样的:解码器不断接收新的码字索引,根据索引查得当前码字C,并将每一个新码字C的第一个字符C[0]与上一个码字P组合成一个新的码字加入字典。
需要注意的是,新码字索引C有可能会不在词典当中。当编码端对类似ABABABA这样具有对称性的字符串进行编码时,会出现如接收端接收到230号码字但实际词典中只有0-299号码字。在这种情况下,根据LZW算法的编码原理,可推知230号码字由299号码字串接230号码字的第一个字符组成,于是,230号码字为299号码字+299号码字中的第一个字符,完成对230号码字的解码。

以下是教材中对于LZW编码的解释:

LZW解码原理和实现算法 LZW解码算法开始时,译码词典和编码词典相同,包含所有可能的前缀根。具体解码算法如下:
步骤1:在开始译码时词典包含所有可能的前缀根。
步骤2:令CW:=码字流中的第一个码字。
步骤3:输出当前缀-符串STRING.CW到码字流。
步骤4:先前码字PW:=当前码字CW。
步骤5:当前码字CW:=码字流的下一个码字。
步骤6:判断当前缀-符串STRING.CW 是否在词典中。
(1)如果”是”,则把当前缀-符串STRING.CW输出到字符流。
当前前缀P:=先前缀-符串STRING.PW。
当前字符C:=当前前缀-符串STRING.CW的第一个字符。
把缀-符串P+C添加到词典。
(2)如果”否”,则当前前缀P:=先前缀-符串STRING.PW。
当前字符C:=当前缀-符串STRING.CW的第一个字符。
输出缀-符串P+C到字符流,然后把它添加到词典中。
步骤7:判断码字流中是否还有码字要译。
(1)如果”是”,就返回步骤4。
(2)如果”否”,结束。

数据结构:

在这里插入图片描述
词典采用动态建立的树的结构,便于查找。
每个节点包含信息如下:

内容 大小
尾缀字符(suffix) 1Byte
母节点(parent) 1Byte
第一个孩子节点( firstchild ) 1Byte
下一个兄弟节点(nextsibling) 1Byte

树中的每一个结点包含如下信息:尾缀字符(suffix)、母节点(parent)、第一个孩子节点( firstchild )、下一个兄弟节点(nextsibling)。
词典的初始化:初始化0-255号条目,每个条目的尾缀字符suffix就是其索引号,下一个兄弟结点nextsibling为其索引+1(第255号的nextsibling为-1,即不存在),每一项的母结点parent、第一个孩子结点firstchild均为-1,表示不存在。
词典的查找:在查找时某个码字m加上前缀c是否存在于词典中时,先访问码字m,根据码字m的firstchild查找到第一个子节点,根据该子节点及其兄弟结点nextsibling依次访问,便可查找以码字m为前缀的所有词条,若存在,则返回该结点索引,若不存在,返回-1。
词典的添加:将m+‘c’添加进词典。添加时有两种情况,其一,若m没有子节点firstchild,则将‘c’作为其子节点;若m存在子节点,则沿着第一个子节点的兄弟结点nextsibling依次访问,直至末尾,将‘c’添加至该末尾。

此外,为便于解压,需要向压缩后的文件写入原始文件大小。本次实验的程序中所编写的程序每一个码字为2Byte,范围0-65535。

实验素材:

测试LZW压缩效果的文件有:

  1. 未经压缩的bmp图像文件
  2. YUV图像文件
  3. 文本文件
  4. 经过压缩的png图像文件
  5. 经过压缩的jpg图像文件
  6. 无损压缩flac音频文件
  7. 有损压缩mp3音频文件
  8. 索尼相机arw RAW图像文件
  9. exe程序文件
  10. word文档文件
  11. pdf文件

实验中所使用的文件并不能很好地代表一般情况

实验结果:

测试用文本文件“in.txt”:
在这里插入图片描述
二进制表示:
在这里插入图片描述
压缩后结果:
在这里插入图片描述
解压结果:
在这里插入图片描述
可见,由于一个码字使用16bit表示,在压缩小文件时文件体积不减反增。

对不同种类文件压缩的结果:

文件 说明 输入字节数 输出字节数 压缩率
test1.bmp 8bit有调色板bmp文件 308278 224122 72.7%
test2.bmp 24bit真彩色bmp文件 196664 189832 96.5%
test3.png 经过压缩编码的PNG文件 163978 219674 140.0%
test4.jpg 经过压缩编码的JPG文件 24200 40796 168.6%
miss.cif 未经压缩的YUV文件 3649536 2161456 59.2%
text_test.txt 未经压缩的文本文件 4723 3960 83.8%
flac_test.flac 无损音频flac文件 39745636 49351988 124.2%
mp3_test.mp3 有损音频mp3文件 12158251 15113846 124.3%
arw_test.arw 索尼相机arw RAW图像文件 24674304 29674756 120.3%
devenv.exe exe程序文件 747952 650210 87.0%
docx_test.docx word文档文件 21954 34434 156.8%
pdf_test.pdf pdf文件 2357605 2791542 118.4%

结果分析

  1. 实验中的编码由于一个码字为2Byte,所以在传送255以内的码字时会浪费1Byte,造成编码效率下降。
  2. 从不同文件的压缩结果可以看出,对于未压缩的文件,LZW算法可以进行一定程度的压缩,文件中数据的冗余度越高,压缩性能越好,如一个24fps的CIF分辨率420采样YUV文件,由于每一帧之间存在较高相关性,而且帧内相邻像素之间存在一定相关性,因此获得了比较好的压缩效果。
  3. 对于未经压缩的BMP文件,由于相邻像素间存在相关性,仍然可以获得一定的压缩效果。
  4. LZW算法存在固有限制:字符串重复概率低时,影响压缩效率;词典中的字符串不再出现,影响压缩效率。对于已经压缩的文件类型,由于其压缩编码已经文件中大部分相关性去除,每个符号近似于等概分布,其信息熵接近于每符号最大值。在这种情况下文件中很少出现重复字符串,严重影响LZW算法效率,且一个码字为2Byte使得文件体积不减反增。

程序代码

lzw.h

#pragma once
#include "bitio.h"
#include <iostream>
#include <fstream>
#define MAX_size 65535
using namespace std;

typedef unsigned char uint1;
typedef unsigned short uint2;
typedef unsigned int uint4;

bool LZWencode(ifstream& file_in, BitFileOut& bit_out);
bool LZWdecode(ofstream& file_out, BitFileIn& bit_in);

class LZW_Dictionary
{
   
public:
	LZW_Dictionary();
	~LZW_Dictionary();
	void initDictionary();
	int InDict(uint1 character, int string_code);
	void AddtoDict(uint1 character, int string_code);
	void PrintDict();
	int get_next_code();
	int DecodeString(int code, int last_code, int start = 0);

	uint1* d_stack;

private:
	typedef struct {
   
		int suffix;
		int parent;
		int firstchild;
		int nextsibling;
	}node;
	node* dict;
	uint4 next_code;
};

lzw.cpp

#include "lzw.h"
#include <iostream>
using namespace std;

LZW_Dictionary::LZW_Dictionary()
{
   
	initDictionary();
}

LZW_Dictionary::~LZW_Dictionary()
{
   
	delete[] dict;
	delete[] d_stack;
}

void LZW_Dictionary::initDictionary()
{
   
	dict = new node[MAX_size + 1];
	d_stack = new uint1[MAX_size];
	for (int i = 0; i < 256; i++) {
   
		dict[i].suffix = i;
		dict[i].parent = -1;
		dict[i].firstchild = 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值