Huffman编码

哈夫曼树的创建:用一个指针数组存放每个字符的值和次数(权值),并按照权值升序规则排序,合并数组的前两个节点,并生成一个新的节点,其左右孩子即为数组的前两个元素,用根节点指向它,将其放在指针数组的首位,从第三个元素开始依次向前移动一位,重新排序,重复上述步骤直至数组中至剩下一个元素。比如:


typedef struct HuffmanNode
{
	ElementType data;
	int weight;
	struct HuffmanNode *lchild;
	struct HuffmanNode *rchild;
	int flag;//用于后序查找
	ElementType code[Maxsize]; //存放每个字符的哈夫曼编码
};
typedef struct MyStack
{
	struct HuffmanNode *node[Maxsize];
	int top;
};
void Sort(HuffmanNode *arr[],int length)   //采用插入排序
{
	for(int i=1;i<length;i++)
	{
		if(arr[i]->weight<arr[i-1]->weight)
		{
			HuffmanNode *temp=arr[i];
			int j=0;
			for(j=i;j>0&&temp->weight<arr[j-1]->weight;j--)
				arr[j]=arr[j-1];
			arr[j]=temp;
		}
	}
}
void CreateTree(HuffmanNode *arr[],int length,HuffmanNode **root)
{
	
	if(length<2)
	{
		printf("创建失败.\n");
		return;
	}
	Sort(arr,length);//按照权值从小到大排序
	while(length>1)
	{
		//合并前两个节点
		HuffmanNode *temp=(HuffmanNode*)malloc(sizeof(HuffmanNode));
		temp->weight=arr[0]->weight+arr[1]->weight;
		temp->data='*';
		temp->lchild=arr[0];
		temp->rchild=arr[1];
		*root=temp;
		arr[0]=temp;
		//所有元素向前移动一位
		for(int j=2;j<length;j++)
		{
			arr[j-1]=arr[j];
		}
		length--;
		//重新按照权值升序排序
		for(int i=0;i<length-1;i++)
		{
			if(arr[i]->weight>arr[i+1]->weight)
			{
				temp=arr[i];
				arr[i]=arr[i+1];
				arr[i+1]=temp;
			}
		}
	}
	
}
编码,按照左“0”右“1”为每个叶子节点分配唯一的编码,这里使用一个字符数组,用于记录访问路径,并且使用二叉树后序遍历的方式(因为后序遍历能够得到从根到叶子节点的完整路径,而且方便与路径数组同步进行),即访问左孩子时进栈,路径数组中加入“0”,访问右孩子时路径数组加入“1”,左右孩子访问完毕后,退栈,路径数组长度减一。如遇到叶子节点,此时的路径数组即为该元素的哈夫曼编码。

void HuffmanCode(HuffmanNode *root,char _arr[])
{
	if(root==NULL) return;
	HuffmanNode *p=root;
	HuffmanNode *_array[Maxsize];
	MyStack *s=CreateStack();
	char path[Maxsize]="\0";
	int length=0;
	int index=0;
	while(p!=NULL||s->top>-1)
	{
		if(p!=NULL)
		{
			
			s->node[++(s->top)]=p;

			if(p->data!='*')
			{
				HuffmanNode *temp=(HuffmanNode*)malloc(sizeof(HuffmanNode));
				temp->data=p->data;
				
				strcpy(temp->code,path);
				_array[index++]=temp;
				printf("%c:",p->data);
				printf("%s",temp->code);
				printf("  ");
			}
			p->flag=0;
			p=p->lchild;
			path[length++]='0';
		}
		else
		{
			HuffmanNode *_node=s->node[s->top];
			if(_node->flag==0)
			{
				_node->flag=1;
				p=_node->rchild;
				length--;
				path[length]='\0';
				path[length++]='1';
			}
			else
			{
				s->node[s->top--]=NULL;
				path[--length]='\0';
			}
			
		}
	}
	int i=0;
	printf("\n");
	printf("编码输出:");
	while(_arr[i]!='\0')
	{
		for(int j=0;j<index;j++)
		{
			if(_arr[i]==_array[j]->data)
				printf("%s",_array[j]->code);	
		}
		i++;
	}
}
样例:

输入电文字符串:AAEEFEBCCCCAGB



### Huffman 编码算法原理 Huffman编码是一种基于字符出现频率的数据压缩技术。该方法的核心在于构建一颗特殊的二叉树结构—即所谓的Huffman树,在此树上,每个叶节点代表输入数据集中的一种符号,并附带有一个权重值表示该符号的发生概率或频次[^1]。 对于每一个待编码的对象而言,如果它在整个序列里频繁显现,则会被赋予更短的位串作为其对应的编码形式;相反地,那些较少见的对象将会被分配相对较长一些的比特组合来进行表达。这种策略有效地减少了整个消息所需传输的信息量,实现了高效的数据压缩效果[^3]。 另外值得注意的是,为了防止解码时可能出现歧义的情况发生,所设计出来的各个代码之间不会存在任何一个是他者的前缀关系,这一特性也被称为“即时可解析性”,确保了解压过程能够顺利进行而不受干扰[^2]。 ### 实现方式概述 以下是关于如何创建并运用上述提到的Huffman编码方案的一个简化版描述: #### 构建优先队列(最小堆) 首先统计给定文本中各字符的数量并将它们存入到一个列表当中,随后依据这些数值初始化一个小根堆(Min Heap),其中每项元素都是形如`[frequency, character]`这样的数组片段。 #### 创建霍夫曼树 接着不断地从未处理完毕的小顶堆里面取出两个具有最低频率计数的项目A和B,然后合成一个新的内部结点C,它的子节点分别是之前选出的那一对成员AB,同时更新这个新加入者C自身的累计次数等于两者之和。重复执行以上操作直到最后只剩下唯一的超级父级为止,此时就得到了完整的霍夫曼树形态。 #### 生成编码映射表 遍历整棵已建立好的霍夫曼树,沿着路径从根部向叶子方向移动的过程中记录下沿途经过分支的方向信息(左转记作'0',右转视为'1'),最终到达末端位置处便可以获得相应于特定字符的一系列连续数字组成的字符串,也就是所说的霍夫曼编码。 ```python import heapq from collections import defaultdict, Counter def huffman_encoding(data): frequency = dict(Counter(data)) heap = [[weight, [symbol, ""]] for symbol, weight in frequency.items()] heapq.heapify(heap) while len(heap) > 1: lo = heapq.heappop(heap) hi = heapq.heappop(heap) for pair in lo[1:]: pair[-1] = '0' + pair[-1] for pair in hi[1:]: pair[-1] = '1' + pair[-1] heapq.heappush(heap, [lo[0]+hi[0]] + lo[1:] + hi[1:]) return sorted(heapq.heappop(heap)[1:], key=lambda p: (len(p[-1]),p)) data = "this is an example of a huffman tree" huff_code = huffman_encoding(data) print("Symbol".ljust(10) + "Frequency".ljust(10)+ "Huffman Code") for i in huff_code: print(i[0].ljust(10), str(data.count(i[0])).ljust(10),i[1]) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值