利用哈夫曼树实现文件压缩

实现原理:

1.按照字符分析要压缩的文件得出结果(有哪些字符,每个字符出现的次数)。
2.根据字符出现的次数构建哈夫曼树(得出字符的哈夫曼编码)。
3.根据字符的哈夫曼编码进行转换、压缩,然后创建压缩文件。
4.读取压缩文件,读出哈夫曼编码和字符的对照表。解压缩。

数据结构的设计:
1.保存字符次数和字符的数据结构
struct _symbol{
char character;//字符
unsigned int number;//字符出现的次数
char huffecode[20];//编码
}

2.用一个结构体保存所有字符的信息
struct _filestate{
char symbol_count;//字符种类
struct _symbol symbol_array[128];//字符信息
};
3.哈夫曼树节点
struct node{
struct _symbol symbol;
struct node *left;
struct node *right;
};

4.哈夫曼编码
struct code{
char character;
综合实验: 1. 问题描述 利用哈夫曼编码进行通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。这要求在发送端通过一个编码系统对待传输数据预先编码,在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站编写一个哈夫曼码的编/译码系统。 2. 基本要求 一个完整的系统应具有以下功能: (1) I:初始化(Initialization)。从终端读入字符集大小n,以及n个字符和n个权值,建立哈夫曼,并将它存于文件hfmTree中。 (2) E:编码(Encoding)。利用已建好的哈夫曼(如不在内存,则从文件hfmTree中读入),对文件ToBeTran中的正文进行编码,然后将结果存入文件CodeFile中。 (3) D:译码(Decoding)。利用已建好的哈夫曼文件CodeFile中的代码进行译码,结果存入文件Textfile中。 (4) P:印代码文件(Print)。将文件CodeFile以紧凑格式显示在终端上,每行50个代码。同时将此字符形式的编码文件写入文件CodePrin中。 (5) T:印哈夫曼(Tree printing)。将已在内存中的哈夫曼以直观的方式(比如)显示在终端上,同时将此字符形式的哈夫曼写入文件TreePrint 中。 3. 测试数据 用下表给出的字符集和频度的实际统计数据建立哈夫曼,并实现以下报文的编码和译码:“THIS PROGRAME IS MY FAVORITE”。 字符 A B C D E F G H I J K L M 频度 186 64 13 22 32 103 21 15 47 57 1 5 32 20 字符 N O P Q R S T U V W X Y Z 频度 57 63 15 1 48 51 80 23 8 18 1 16 1
### 使用哈夫曼在C语言中实现文件压缩 哈夫曼编码是一种广泛应用于数据压缩的技术,能够有效地减少存储空间并提高传输效率。通过构建哈夫曼来生成最优前缀码表,进而对输入的数据流进行编码。 为了理解如何利用哈夫曼在C语言中实现文件压缩,可以考虑以下几个方面: #### 构建频率统计表 首先读取待压缩文件中的字符,并记录每个字符出现的次数。这一步骤对于后续创建哈夫曼至关重要[^1]。 ```c #include <stdio.h> #define MAX_CHAR 256 void countFrequency(FILE *file, int freq[]) { char ch; while ((ch = fgetc(file)) != EOF) { ++freq[ch]; } } ``` #### 创建最小堆用于构造哈夫曼 基于上述得到的频次信息,在内存中建立一个小根堆(Min Heap),以便高效地找到两个具有最低概率节点组合成新的内部结点直至形成完整的二叉结构。 ```c typedef struct MinHeapNode { unsigned char data; /* 存储的是ASCII码 */ unsigned int frequency; /* 出现次数 */ struct MinHeapNode *left, *right; } MinHeapNode; // ...省略部分辅助函数... struct MinHeap* createAndBuildMinHeap(int size); MinHeapNode* buildHuffmanTree(const int freq[], const int size); ``` #### 编写编码映射关系 遍历已建成的哈夫曼自顶向下分配'0'/'1'路径给各个叶子节点代表其对应的唯一编码串;最终获得一张由原始字节到变长位序列之间的转换对照表。 ```c void printCodes(struct MinHeapNode* root, int arr[], int top); /* Helper function to store huffman codes of characters */ void HuffmanCodes(MinHeapNode* root, int arr[], int top, char result[][MAX_TREE_HT], int* topArr) { if (root->left) { arr[top] = 0; HuffmanCodes(root->left, arr, top + 1, result, topArr); } if (root->right) { arr[top] = 1; HuffmanCodes(root->right, arr, top + 1, result, topArr); } if (!root->left && !root->right) { // 叶子节点 (*topArr)++; strcpy(result[*topArr], &arr[0]); } } char* getEncodedData(char data[], int length, char encodedResult[][MAX_TREE_HT]) { static char encodedString[MAX_SIZE]; for (int i = 0; i <= length; i++) strcat(encodedString, encodedResult[data[i]]); return encodedString; } ``` #### 实际应用——文件压缩过程 最后按照之前准备好的编码方案逐个替换原文件里的每一个byte为更短形式保存至目标位置完成整个压缩流程。 ```c FILE* compressFile(const char* inputFilePath, const char* outputFilePath){ FILE *inputFile = fopen(inputFilePath,"rb"); FILE *outputFile = fopen(outputFilePath,"wb"); // 统计频率... // 建立哈夫曼... // 获取编码表... fwrite(compressedBuffer,sizeof(unsigned char),compressedSize,outputFile); fclose(inputFile); fclose(outputFile); return outputFile; } ```
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值