赫夫曼树:最优二叉树,带权路径长度最短的树,也称为赫夫曼树。
给定n个权值作为n个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为赫夫曼树(Huffman Tree)。赫夫曼树是带权路径长度最短的树,权值较大的结点离根较近。
先说几个基本的名词:
- 路径:从树的一个结点到另一个结点之间的分支构成两个结点之间的路径
- 路径长度:路径上的分支数目
- 树的路径长度:从树根到每个结点的路径长度之和
- 树的带权路径长度:树中所有叶子节点的带权路径长度之和
- 赫夫曼树:带权路径长度WPL(Weighted Path Length)最小的二叉树。
构造一颗赫夫曼树
假设有n个权值,则构造出的赫夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、…、wn,则赫夫曼树的构造规则为:
(1) 将w1、w2、…,wn看成是有n 棵树的森林(每棵树仅有一个结点);
(2) 在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和;
(3)从森林中删除选取的两棵树,并将新树加入森林;
(4)重复(2)、(3)步,直到森林中只剩一棵树为止,该树即为所求得的赫夫曼树
赫夫曼编码
翠花说先上几个基本的名词:
- 定长编码:像是ASCII编码就是定长的,都是8位表示一个字符。
- 变长编码:单个字符的编码的长度不一致,可以根据整体出现的频率来进行调节。
- 前缀码:给定一个序列的集合,若不存在一个序列是另一个序列的前缀,则该序列集合称为前缀码(就是没有任何码字是其他码字的前缀)。
C代码实现
定义的头文件:huffman.h
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
//错误
#define ERROR 0
//成功
#define SUCCESS 1
/* 状态码识别类型 */
typedef int Status;
#define MAXSIZE 1024
typedef char Element;
typedef struct {
// 节点值
Element data;
// 权重
unsigned int weight;
// 父结点,左孩子,右孩子
unsigned int parent,lchild,rchild;
}HTNode;
typedef HTNode* HuffmanTree;
typedef Element* HCNode;
/*
用以存储根据huffman树来生成每个字符的huffman编码值
例如:
data: , code: 10
data:a, code: 111
data:h, code: 110
data:i, code: 001
data:o, code: 0101
data:s, code: 0100
data:x, code: 0111