哈夫曼编/译码器

本文介绍了哈夫曼编码的概念,它是一种用于数据无损压缩的一致性编码法,通过构建哈夫曼树实现。文章详细阐述了如何建立哈夫曼树,对文本进行编码和解码的过程,以及利用位操作进行文件压缩和解压的方法。

哈夫曼编/译码器
利用哈夫曼编码进行信息通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。但是,这要求在发送端通过一个编码系统对待传数据预先编码,在接收端将传来的数据进行译码(复原)。

二. 设计内容
哈夫曼树─即最优二叉树,带权路径长度最小的二叉树,经常应用于数据压缩。 在计算机信息处理中。
哈夫曼编码”是一种一致性编码法(又称“熵编码法”),用于数据的无损耗压缩。这一术语是指使用一张特殊的编码表将源字符(例如某文件中的一个符号)进行编码。这张编码表的特殊之处在于,它是根据每一个源字符出现的估算概率而建立起来的(出现概率高的字符使用较短的编码,反之出现概率低的则使用较长的编码,这便使编码之后的字符串的平均期望长度降低,从而达到无损压缩数据的目的)。这种方法是由David.A.Huffman发展起来的。 例如,在英文中,e的出现概率很高,而z的出现概率则最低。当利用哈夫曼编码对一篇英文进行压缩时,e极有可能用一个位(bit)来表示,而z则可能花去25个位(不是26)。用普通的表示方法时,每个英文字母均占用一个字节(byte),即8个位。二者相比,e使用了一般编码的1/8的长度,z则使用了3倍多。若能实现对于英文中各个字母出现概率的较准确的估算,就可以大幅度提高无损压缩的比例。
利用哈夫曼编码进行信息通信可以大大提高信道利用率,缩短信息传输时间,降低传输成本。但是,这要求在发送端通过一个编码系统对待传数据预先编码,在接收端将传来的数据进行译码(复原)。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。

——参考来自百度百科介绍
三.概要设计
1.建立哈夫曼树:读入文件(.souce),统计文件中字符出现的频度,并以这些字符的频度作为权值,建立哈夫曼树。
2.编码:利用已建立好的哈夫曼树,获得各个字符的哈夫曼编码,并对正文进行编码,然后输出编码结果,并存入文件(
.code)中。
3.译码:利用已建立好的哈夫曼树将文件(.code)中的代码进行译码,并输出译码结果,并存入文件(.decode)中。
4.利用位操作,实现文件的压缩与解压。

1.void tongji(); //统计字符出现频率,对其进行冒泡排序
2.void mima(); //密码登录界面
3.void Huffman(); //利用字符与出现频率作为权重,构造huffman树
4.void menu(); //菜单页面
5.void HuffmanCode();//为每个字符编码
6.void Encode(); //利用huffman树字符对应前缀为文件编码
7.void Decode(); //利用huffman树字符对应前缀为文件译码
8.void yasuo(); //利用位操作对huffman文件进行压缩将8位二进制化为一位十进制数
9.char bianyasuo(char str[]);//位操作将8位01数组化为一位十进制
10.void jieya(); //解压为二进制文件
设计字符的结构体(Count)其中包含字符(c)和出现次数(count)并且定义数组Leaf[maxsize]
struct Count
{
int c;
int count;
};
设计哈夫曼树的结构体(hufmtree),其中包含权重、左右孩子、父母和要编码的字符。用这个结构体(hufmtree)定义个哈夫曼数组(hufmtree tree[maxsize];)。
typedef struct
{
char ch;
int weight;
int lchild,rchild,parent;
}hufmtree;
hufmtree tree[1000];

设计编码类型的结构体(Codetype)其中包含字节(bits)和开始位置(start)还有与编码对应的字符(char ch)
typedef struct
{
char bits[3000];
int start;
char ch; //与编码对应的字符
}Codetype; Codetype code[maxsize];


#include<stdio.h>
#include<stdlib.h>
#include<io.h>
#include<conio.h>
/*  #define n 5  //叶子数目
    #define m (2*n-1)    //结点总数*/
#define maxval 1000
#define maxsize 100   //哈夫曼编码的最大位数
struct Count
{
        int c;
        int count;
};
typedef struct
{
     char ch;
     int weight;
     int lchild,rchild,parent;
}hufmtree; 
hufmtree tree[400];

typedef struct 
{ 
     char bits[400]; 
     int start; 
     char ch;  //与编码对应的字符 
}Codetype; 
Codetype code[200]; 

 struct Count leaf[128];
 int zifunum=0;

void tongji();
void Huffman();
void menu();
void HuffmanCode();//为每个字符编码 
void Encode();
void Decode();
void jieya();

void main()
{
    int num;
    //system("cls");

while(1)
{
    system("cls");
    printf("************************************************************************\n");
    printf("--------------------------huffman编译码器-------------------------------\n");
    printf("--------------------------请选择 所需项目-------------------------------\n");
    printf("--------------------------1.统计字符出现频率----------------------------\n");
    printf("--------------------------2.建立huffman树-------------------------------\n");
    printf("--------------------------3.huffman编码---------------------------------\n");
    printf("--------------------------4.huffman译码---------------------------------\n");
    printf("--------------------------5.文件压缩------------------------------------\n");
    printf("--------------------------6.文件解压------------------------------------\n");
    printf("************************************************************************\n");   printf("\n");

    scanf("%d",&num);
    switch(num)
    {
        case 1: tongji();break;
        case 2: Huffman();break;
        case 3: HuffmanCode();break;
        case 4: Decode();  ;break;
        case 5: tongji();Huffman();HuffmanCode();break;
        case 6: break;   
    }
}
//  menu();
}
void tongji()
{   int mi,ni,tmp2,tmp3;
    struct Count counter[128];
    int i=0;
    for(i=0;i<128;i++) {counter[i].c=i;counter[i].count=0;}
    FILE* fp;
    fp=fopen("d:\\b.souce","r");
    char flag=0xA;
    int lines=0;
    char tline[128]={'\0'};
    char* cp=tline;
    char tmp;  

    while(!feof(fp))
    {
        tmp=getc(fp);
        counter[tmp].count++;//强制转换,ASCII码0-256在相应位置++
    }
    //sort

    for(mi=0;mi<128;mi++)//给count数组加字符
    {
        for(ni=mi+1;ni<128;ni++)
        {
            if(counter[mi].count>=counter[ni].count)
            {
                tmp2=counter[mi].count;
                counter[mi].count=counter[ni].count;
                counter[ni].count=tmp2;
                tmp3=counter[mi].c;
                counter[mi].c=counter[ni].c;
                counter[ni].c=tmp3;
            }
        }
    }
    //sort end
    for(i=0;i<128;i++)
    {
        if(counter[i].count>0)
           leaf[i]=counter[i];
    }
    int _chars=0;
    for(i=0;i<128;i++)
    {
        if(counter[i].count>0)
        {
            zifunum++;
            _chars+=counter[i].count;
            if(counter[i].c==0xA)   //\n
            {
                printf("\\n  Number of occurrences=%d\n",counter[i].count);
            }
            else
                if(counter[i].c==0x20)  //space
                {
                    printf("space Number of occurrences=%d\n",counter[i].count);
                }
                else
                    if(counter[i].c==0x9)  //\t
                    {
                        printf("\\t  Number of occurrences=%d\n",counter[i].count);
                    }
                    else
                        if(counter[i].c==0x0)  //NULL
                        {
                            printf("NULL  Number of occurrences=%d\n",counter[i].count);
                        }
                        else
                            if(counter[i].c==0xD)  //
                            {
                                printf("OxD  Number of occurrences=%d\n",counter[i].count);
                            }
                            else  /*Visible characters*/printf("%c  Number of occurrences=%d\n",counter[i].c,counter[i].count);
        }
    }
    printf("zifunum %d\n",zifunum);
    printf("File the total number of characters=%d\n",_chars);
    fclose(fp);
    getch();
}



void Huffman()  //构造哈夫曼树 
{ 
 int i,e,j,p1,p2;e=0; 
 int small1,small2,n; 
    n=zifunum;
     for(i=0;i<128;i++) 
     { 
                 if(leaf[i].count!=0)  //赋权值 
        { tree[e].weight=leaf[i].count;
            tree[e].ch=leaf[i].c;
           e++;
        } 
     }   

     for(i=0;i<2*n-1;i++)    //初始化数组 
     { 
      tree[i].parent=-1; 
      tree[i].lchild=-1; 
      tree[i].rchild=-1; 
     }  

     for(i=n;i<2*n-1;i++)    //进行n-1次合并产生n-1个新结点 
     { 
      p1=p2=0; 
      small1=small2=maxval;//使最小值和次小值都为maxval 
      for(j=0;j<=i-1;j++)                //选出两个权值最小的根结点 
       if(tree[j].parent==-1)     
        if(tree[j].weight<small1) //查找最小权并用p1记录其下标 
        { 
         small2=small1; 
         small1=tree[j].weight; 
        p2=p1; 
         p1=j; 
    } 

    else  
     if(tree[j].weight<small2)//查找次小权并用p2记录其下标 
    { 
         small2=tree[j].weight; 
         p2=j; 
    } 

    tree[p1].parent=tree[p2].parent=i; 
    tree[i].weight=tree[p1].weight+tree[p2].weight; 
    tree[i].lchild=p1; 
    tree[i].rchild=p2; 
 } 
} 

void HuffmanCode()//为每个字符编码 
{ 
     int i,j,p,k,n;
     n=zifunum;
     for(i=0;i<n;i++) 
     { 
          printf("%c ",tree[i].ch); 
          code[i].start=n-1; 
          j=i; 
          p=tree[i].parent; 
          while(p!=-1) 
              { 
               if(tree[p].lchild==j) 
                code[i].bits[code[i].start]='0'; 
               else  
                code[i].bits[code[i].start]='1'; 
               code[i].start--; 
               j=p; 
               p=tree[p].parent; 
      } 

      for(k=code[i].start+1;k<n;k++) 
           printf("%c",code[i].bits[k]); 
              printf("\n"); 
     } 
    Encode();
     getch();
}
void Encode()//将文章存储在磁盘文件中并显示编码 
{ 
     FILE *in;FILE *out; 
     char ch, infile[10],outfile[10]; 
     int i,k,n;
     n=zifunum;
     printf("输入源文件名:\n"); 
     scanf("%s",infile); 
     printf("输入保存文件名:\n");//保存编码后的文件名 
     scanf("%s",outfile); 
     if((in=fopen(infile,"r"))==NULL)//文件打不开 
     { 
      printf("cannot open infile\n"); 
      exit(0);//终止程序 
     } 

     if((out=fopen(outfile,"w"))==NULL) 
     { 
      printf("cannot open outfile\n"); 
      exit(0);//终止程序 
     } 

     printf("\n编码后的文件是:\n");//英文文章将以编码的形式显示并存储在磁盘文件中 
     while(!feof(in))//读取数据的文件没有结束 
     { 
        ch=fgetc(in);//从in指针指向的文件中读入字符 
        for(i=0;i<n;i++) 
        {
            if(tree[i].ch==ch) 
                for(k=code[i].start+1;k<n;k++)//把第i种字符的哈夫曼编码 
                { 
                             printf("%c",code[i].bits[k]); 
                             fputc(code[i].bits[k],out); 
                }    
         } 
     } 

     printf("\n"); 
        fclose(in);  //关闭in指向的文件 
     fclose(out); //关闭out指向的文件 
} 




void Decode()       //译码 
{   
     int n;
    n=zifunum;
 int p=2*n-2;    //根结点 
 char ch,ps; 
 FILE *jie;//
 FILE *out;//打开保存了译码的文件 
 char jieyafile[20]={"D://d.decode"};
 char outfile[20]={"D://a.code"}; 
 printf("输入译码文件:\n"); 
 //scanf("%s",outfile); 
 printf("输入想保存的解压文件名:\n"); 
 //scanf("%s",jieyafile); 
  if((jie=fopen(jieyafile,"w"))==NULL) 
 { 
  printf("cannot open jieyafile\n"); 
  exit(0);    //终止程序 
 } 
 if((out=fopen(outfile,"r"))==NULL) 
 { 
  printf("cannot open outfile\n"); 
  exit(0);    //终止程序 
 } 

    printf("\n原文件是:\n");//该部分是将编码还原成字符 
 while(ch!='2') 
 {
	
         while( tree[p].lchild!=-1)
		 {  ch=fgetc(out);
           //从out指向的文件中读取一个字符 
               if(ch=='0')//左孩子 
                    { p=tree[p].lchild;}//左孩子的编码赋给p 
               if(ch=='1')//右孩子 
                    { p=tree[p].rchild;}//右孩子的编码赋给p 
	
			   else if(ch=='2')
				   break;
      } 
      if(tree[p].lchild==-1)   //走到叶子结点 
		 {  
		   printf("%c",tree[p].ch);//输出该叶子结点的字符 
		   ps=int(tree[p].ch);
		   fputc(ps,jie);
		 
      } 
   
     p=2*n-2;         //回到根结点 

 } 
getch();
 fclose(jie);//关闭jie指向的文件 
 fclose(out);//关闭out指向的文件 
} 

/*
void yasuo()
{
    FILE *fp;
    int fno,fsize;
    int n[4];
    char ya[400];
    fp=fopen("filename","w");
    fno=fileno(fp);
    fsize=filelength(fno);
    while(!feof(fp))
    {
        fread(*n,4,fsize/4,fp);
    }
}
*/
void yasuo()
{
	int n;
	int i;
	char str[4]
	FILE *fp;
	FILE *fp2;
	if((fp=fopen("D://a.code","r"))==NULL) 
	 { 
	  printf("cannot open a.code\n"); 
	  exit(0);    //终止程序 
	 } 	
	if((fp=fopen("D://a.code","w"))==NULL) 
	 { 
	  printf("cannot open a.code\n"); 
	  exit(0);    //终止程序 
	 } 
	while(!feof(fp))
	fread(&stu[i],1,fp);


}
void jieya()       //译码 
{   
    int n;
    n=zifunum;
 int p=2*n-2;    //根结点 
 char ch,ps; 
 FILE *jie;//
 FILE *out;//打开保存了译码的文件 
 char jieyafile[20]={"D://d.decode"};
 char outfile[20]={"D://a.code"}; 
 printf("输入译码文件:\n"); 
 //scanf("%s",outfile); 
 printf("输入想保存的解压文件名:\n"); 
 //scanf("%s",jieyafile); 
  if((jie=fopen(jieyafile,"w"))==NULL) 
 { 
  printf("cannot open jieyafile\n"); 
  exit(0);    //终止程序 
 } 
 if((out=fopen(outfile,"r"))==NULL) 
 { 
  printf("cannot open outfile\n"); 
  exit(0);    //终止程序 
 } 

    printf("\n原文件是:\n");//该部分是将编码还原成字符 
 while(ch!='2') 
 {
	
         while( tree[p].lchild!=-1)
		 {  ch=fgetc(out);
           //从out指向的文件中读取一个字符 
               if(ch=='0')//左孩子 
                    { p=tree[p].lchild;}//左孩子的编码赋给p 
               if(ch=='1')//右孩子 
                    { p=tree[p].rchild;}//右孩子的编码赋给p 
	
			   else if(ch=='2')
				   break;
      } 
      if(tree[p].lchild==-1)   //走到叶子结点 
		 {  
		   printf("%c",tree[p].ch);//输出该叶子结点的字符 
		   ps=int(tree[p].ch);
		   fputc(ps,jie);
		 
      } 
   
     p=2*n-2;         //回到根结点 

 } 
getch();
 fclose(jie);//关闭jie指向的文件 
 fclose(out);//关闭out指向的文件 
} 


void decode()   //依次读入电文,根据哈夫曼树译码
{
	int i,j=0,s,g=0,n;
	FILE *fp1,*fp2;
    char b[1000];     
    n=zifunum;//从根结点开始往下搜索
	i=2*n-2;
	if((fp1=fopen("D://a.code","r"))==NULL)
	{
		printf("读文件出错!!按任意键退出。");
	    getch(); 	exit(0);	  		
	}
	if((fp2=fopen("D://cc.decode","wt"))==NULL)
	{
		printf("文件出错!!按任意键退出。");
		getch();  exit(0);	  		
	}
	while ((s=fgetc(fp1))!=EOF)
	{
		b[g++]=s;
	}
    printf("译码后的字符为:\n");
    while(b[j]!='2')
	{	
		if(b[j]=='0')
			i=tree[i].lchild;   //走向左孩子
        else
			i=tree[i].rchild;   //走向右孩子
		if(tree[i].lchild==-1)  //tree[i]是叶结点
		{
			fprintf(fp2, "%c",tree[i].ch);
			printf("%c",tree[i].ch);
            i=2*n-2;            //回到根结点
		}
		j++;
	}
	printf("保存成功!!请按任意键继续。\n");
	fclose(fp2);
	fclose(fp1);
	printf("按任意键返回主菜单!!!");
    getch();
//	menu();
}



















[ 问题描述 ] 利用哈夫曼编码进行信息通讯可以大大提高信道利用率, 缩短信息传输时间,降低传输成本。但是, 这要求在发送端通过一个编码系统对待传数据预先编码; 在接收端将传来的数据进行译码( 复原 )。对于双工信道( 即可以双向传输信息的信道 ), 每端都需要一个完整的/译码系统。试为这样的信息收发站写一个哈夫曼码的译码系统。 [ 基本要求 ] 一个完整的系统应具有以下功能: (1) I:初始化(Initialization)。从终端读入字符集大小 n,及 n 个字符和 n 个权值,建立哈夫曼树, 并将它存于文件 hfmtree 中。 (2) C:编码(Coding)。利用已建好的哈夫曼树(如不在内存, 则从文件 hfmtree 中读入), 对文件 tobetrans 中的正文进行编码, 然后将结果存入 codefile 中。 (3) D:译码(Decoding)。利用已建好的哈夫曼树将文件 codefile 中的代码进行译码, 结果存入文件 textfile 中。 (4) P:印代码文件(Print)。将文件 codefile 以紧凑格式显示在终端上, 每行 50 个代码。同时将此字符形式的编码文件写入文件 codeprint 中。 (5) T:印哈夫曼树(Tree print)。将已在内存中的哈夫曼树以直观的方式( 树或凹入表行式 )显示在终端上, 同时将此字符形式的哈夫曼树写入文件 treeprint 中。 [ 测试数据 ] (1)利用教科书 6-2 中的数据调试程序。 (2)用下表中给出的字符集和频度的实际统计数据建立哈夫曼树, 并实现以下报 文的编码和译码: "THIS PROGRAM IS MY FAVORITE". 字符 A B C D E F G H I J 频度 186 64 13 22 32 103 21 15 47 57 1 字符 K L M N O P Q R S T U 频度 5 32 20 57 63 15 1 48 51 80 23 字符 V W X Y Z 频度 8 18 1 16 1 [ 实现提示 ] (1) 文件 codefile 的基类型可以设为子界型 bit=0..1。 (2) 用户界面可以设计为"菜单"方式: 显示上述功能符号, 再加上"E",表示结束运行 End, 请用户键入一个选择功能符。此功能执行完毕后再显示此菜单, 直至某次用户选择了 "E"为止。 (3) 在程序的一次执行过程中, 第一次执行 I,D 或 C 命令之后, 哈符曼树已经在内存了, 不必再读入。每次执行中不一定执行 I 命令, 因为文件 hfmtree 可能早己建好。 [ 选作内容 ] (1) 上述 codefile 的基类型实际上占用了存放一个整数的空间, 只起到示意或模拟的作用。现使 codefile 的基类型 package=integer, 把哈夫曼码紧缩到一个整型变量中去, 最大限度地利用码点存储能力, 试改写你的系统。 (2) 修改你的系统, 实现对你的系统的源程序的编码和译码。( 主要是将行尾符/译码问题 ) (3) 实现各个转换操作的源/目文件, 均由用户在选择此操作时指定。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YULIU_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值