哈夫曼压缩

最新推荐文章于 2017-03-07 23:43:06 发布

原创最新推荐文章于 2017-03-07 23:43:06 发布 · 421 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#操作系统 #数据结构与算法

本文详细介绍了哈夫曼压缩的基本原理及其实现过程，包括哈夫曼树的构建、编码设置及文件头信息的处理等关键步骤，并探讨了压缩效率的问题。

花了很长时间写的哈夫曼压缩，终于完成了，在介绍写哈夫曼压缩软件之前，先给大家普及一些小知识。

1、什么是哈夫曼编码？

哈夫曼编码(Huffman Coding)是一种编码方式，哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法，该方法完全依据字符出现概率来构造异字头的平均长度最短的码字，有时称之为最佳编码，一般就叫作Huffman编码。

2、什么是哈夫曼树？

哈夫曼树又称最优二叉树，是一种带权路径长度最短的二叉树。所谓树的带权路径长度，就是树中所有的叶结点的权值乘上其到根结点的路径长度（若根结点为0层，叶结点到根结点的路径长度为叶结点的层数）。树的带权路径长度记为WPL=(W1*L1+W2*L2+W3*L3+...+Wn*Ln)，N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树，相应的叶结点的路径长度为Li(i=1,2,...n)。可以证明哈夫曼树的WPL是最小的。

3、什么是压缩软件？

压缩软件是利用算法将文件有损或无损地处理，以达到保留最多文件信息，而令文件体积变小的应用软件。压缩软件一般同时具有解压缩的功能。压缩软件的的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"中华人民共和国"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的。常见的压缩软件有WinRAR ,好压(Haozip),WinZip,7-Zip,WinMount,Peazip等等。

5、什么是哈夫曼压缩？

哈夫曼压缩是个无损的压缩算法，一般用来压缩文本和程序文件。哈夫曼压缩属于可变代码长度算法一族。意思是个体符号（例如，文本文件中的字符）用一个特定长度的位序列替代。因此，在文件中出现频率高的符号，使用短的位序列，而那些很少出现的符号，则用较长的位序列。

6、什么是哈夫曼算法？

Huffman算法是一种基于统计的压缩方法。它的本质就是对文本文件中的字符进行重新编码，对于使用频率越高的字符，其编码也越短。但是任何2个字符的编码，是不能出现向前包含的。也就是说字符A(假设为00)的编码的前段，不可能为字符B（则B的编码不可能为001，因为这里B的编码中包含了A的前段00，这会给解码难带来不必要的困难，所以这是不允许的）的编码。经过编码后的文本文件，主要包含2个部分：Huffman码表部分和压缩内容部分。解压缩的时候，先把Huffman码表取出来，然后对压缩内容部分各个字符进行逐一解码,形成源文件。
        哈夫曼编码生成步骤：
        ①扫描要压缩的文件，对字符出现的频率进行计算。
        ②把字符按出现的频率进行排序，组成一个队列。
        ③把出现频率最低（权值）的两个字符作为叶子节点，它们的权值之和为根节点组成一棵树。
        ④把上面叶子节点的两个字符从队列中移除，并把它们组成的根节点加入到队列。
        ⑤把队列重新进行排序。重复步骤③④⑤直到队列中只有一个节点为止。
        ⑥把这棵树上的根节点定义为0（可自行定义0或1）左边为0，右边为1。这样就可以得到每个叶子节点的哈夫曼编码了。

接下来就结束哈夫曼编码的大体编程思想，一个程序最重要的就是思想，要事先把思路和步骤理清楚，才开始编程序，因为哈夫曼压缩涉及的方法很多，所以要编写边测试，做到每写一个方法，保证该方法的正确性，防止以后找不到问题所在。

一、哈夫曼压缩步骤：

①扫描要压缩的文件，对字节出现的频率进行计算统计

/** 
     * 读取文件统计字符和字符的出现频率 
     * @param path 要压缩的文件路径 
     * @throws IOException  
     */  
    public void countWeight(String path) throws IOException{  
        fis = new FileInputStream(path); 
        dis=new DataInputStream(fis);
        while(dis.available()>0){  
            int i = dis.read();  
            byteCount[i]++;//i是字符的ASCII码，数组内容是该字符的出现次数  
        }  
    }

②根据字符频率，将字符创建成结点加入到优先队列中，建立哈夫曼树

public void createTree(){  
        //使用优先队列建立哈夫曼树 
        PriorityQueue<HfmNode> nodeQueue = new PriorityQueue<HfmNode>();          
        for(int i=0;i<byteCount.length;i++){  
        	//文件中出现次数不为0的字符,建立哈夫曼结点，存入队列 
            if(byteCount[i]!=0){ 
                HfmNode node = new HfmNode(i,byteCount[i]);               
                nodeQueue.add(node);  
            }  
        }

③根据优先队列的排序，构建哈夫曼树

 while(nodeQueue.size()>1){//当队列中的元素个数大于1  
            //取得最小的两个,并删除掉  
            HfmNode min1 = nodeQueue.poll();  
            HfmNode min2 = nodeQueue.poll();  
            //建立新的结点  
            HfmNode result = new HfmNode(0,min1.getCounts()+min2.getCounts());  
            //设置新结点的左右子结点  
            result.setlChild(min1);  
            result.setrChild(min2);  
            //新结点加入到优先队列中  
            nodeQueue.add(result);  
        }  
        //循环结束后队列中只有一个元素，该元素就是根节点，获取到但不删除  
        root = nodeQueue.peek();  
       // System.out.println("根!"+root.toString());  
    }

④给叶子节点设置编码

public void setCode(HfmNode root,String s){  
        //如果左右子结点都为空，即为叶子节点  
        if(root.getlChild()==null&&root.getrChild()==null){  
            //实例化一个code对象，设置编码和长度  
            Code huffman_code = new Code();  
            huffman_code.setCode(s);  
            //把编码code对象放到SaveCode数组中下标为字符AscII值  
            SaveCode[root.getAscII()] = huffman_code;  
           
        }  
          //如果左子结点不为空，递归  
        if(root.getlChild()!=null){  
            setCode(root.getlChild(),s+'0');  
        }  
        //如果右子结点不为空，递归  
        if(root.getrChild()!=null){  
            setCode(root.getrChild(),s+'1');  
        }         
    }

⑤写入文件头信息，写入的编码是补零后的编码，然后把码表写入文件头信息，还要加上要补零的个数

public void writeHead(String destPath) throws IOException{  
        fos = new FileOutputStream(destPath); 
        dos=new DataOutputStream(fos);
        //统计文件总共用到的字符总数，即编码个数  
        int codeNum = 0;  
        for(int i=0;i<256;i++){  
            if(SaveCode[i]!=null){  
                codeNum++;  
                allString += byteCount[i]*SaveCode[i].getCode().length();  
            }  
        }  
        //写入总文件中总共有多少个用到的字符  
        dos.write(codeNum);  
       // System.out.println(codeNum);  
        //循环输出码表，包括（按顺序）：字符、补了几个0、编码含有的byte个数、编码（整型）。  
        for(int i=0;i<256;i++){  
            //如果该字符在文件中出现过，即编码不为空  
            if(SaveCode[i]!=null){  
                //写入：字符的ASCII码值  
                dos.write(i);     
               // System.out.print(i+"\t"+(char)i);  
                //第i个字符的补零数  
                if(SaveCode[i].getCode().length()%8!=0){//如果编码字符串程度不是8的整倍数  
                    zeroCount[i] = 8-SaveCode[i].getCode().length()%8;//设置补零的个数   
                }else{//如果是8的整倍数  
                    zeroCount[i] = 0;  
                }  
                //写入：每个编码末尾补了几个0  
                dos.write(zeroCount[i]);  
                //补零后的编码，写入头信息  
                String addZero = SaveCode[i].getCode();  
             //   System.out.println(SaveCode[i].getCode()+"需要补零的个数"+zeroCount[i]);  
                for(int j=0;j<zeroCount[i];j++){//循环次数为：需要补零的个数  
                    //每次在编码后补一个0  
                    addZero = addZero+'0';  
                }  
                //在补0完成后，写入：编码有几个byte  
                dos.write(addZero.length()/8);    
                //对于补齐0的编码，每次取出一个字节  
                for(int j=0;j<addZero.length()/8;j++){  
                    String subString = "";  
                    //取出一个字节中的8位赋值给codeString  
                    for(int k=j*8;k<(j+1)*8;k++){  
                        subString = subString+addZero.charAt(k);                      
                    }                     
                    //读取每个字节，将01串转化成整型数  
                    int cs = changeString(subString);                 
                    dos.write(cs);  
                }//每个字符读取完毕  
                  
            }  
        }  
        if(allString%8==0){  
            dos.write(0);  
        }else{  
            fileAddZero = 8-allString%8;  
            dos.write(fileAddZero);  
            System.out.println("文章末尾补零"+fileAddZero);  
        }  
    }

⑥读文件并写入内容到另外一个文件

public void writeFile(String path) throws IOException{   
        //等待中的编码字符串  
        String str = "";  
        fis = new FileInputStream(path);  
        dis=new DataInputStream(fis);
        //如果文件可读内容大于0  
        while(dis.available()>0){  
            //读取一个字节字符  
            int i = dis.read();  
            //得到该字符的码表中的编码----没有补零的，加入到等待中的字符串后  
            str = str+SaveCode[i].getCode();  
              
            System.out.println("!!~~!!"+str);  
              
            //如果该编码长度大于等于8  
            while(str.length()>=8){  
                //截取8位编码的字符串  
                String subString = " ";  
                for(int j=0;j<8;j++){  
                    subString = subString+str.charAt(j);  
                }  
                //读取每个字节，将01串转化成整型数  
                int cs = changeString(subString);  
                dos.write(cs);  
                //删除str的前八位  
                String tranString = str;  
                str = "";  
                for(int j=8;j<tranString.length();j++){  
                    str = str+tranString.charAt(j);  
                }  
            }  
        }  
        //文件末尾最后的字符串  
        System.out.println("mm"+str);  
        for(int t=0;t<fileAddZero;t++){  
            str = str+'0';  
        }  
       System.out.println(str);  
        //写入文件  
        int cs = changeString(str);   
        dos.write(cs);  
    }

二，解压缩的过程（压缩的逆过程）：

①读取文件头信息，按写入的顺序依次读出

public void readHead(String path) throws IOException{  
        fis = new FileInputStream(path);  
        dis=new DataInputStream(fis);  
        //读取字符种类总数  
        codeNum = dis.read();  
        System.out.println(codeNum);  
        //实例化记录文件头信息的数组，数组长度为字符种类总数  
        head = new Head[codeNum];  
        System.out.println("AscII\t字节数\t补零数\t编码");  
        //以字符种类总数作为循环限制条件，读取每个字符的编码细则  
        for(int i=0;i<codeNum;i++){  
            //创建文件头信息对象  
            Head info = new Head();  
            //读取字符ASCII码，给对象设置ASCII码  
            info.setAscII(dis.read());  
            System.out.print(info.getAscII()+"\t"+(char)info.getAscII()+"  ");  
              
            //读取编码末尾补零数，并给对象设置  
            info.setZeroNum(dis.read());  
              
            //读取编码所占字节数，给对象设置  
            info.setByteNum(dis.read());  
            System.out.print(info.getByteNum()+"\t");  
              
            //读取当前编码的每个字节  
            for(int j=0;j<info.getByteNum();j++){  
                int code_int = dis.read();  
                //读取到的整数转换成String---0,1串，该01串不会以0开头  
                String code_string = Integer.toBinaryString(code_int);  
//              System.out.println("s++"+code_string);  
                int length = code_string.length();  
                //01串不足8位的在前面补零  
                if(length%8!=0){  
                    for(int k=0;k<8-length;k++){  
                        code_string = '0'+code_string;                        
                    }  
                }  
                //给info对象设置编码,含补零，每个字节的前面补零的01串相加  
                info.setCode(info.getCode()+code_string);                 
            }  
            //得到完整的补零后的01串，即文件头信息存储的编码  
            System.out.print(info.getZeroNum()+"\t");  
              
            //根据编码末尾补零个数，恢复编码不补零的编码，即码表中存储的编码，  
            for(int t=0;t<info.getZeroNum();t++){  
                info.setCode(info.getCode().substring(0, info.getCode().length()-1));  
            }  
            System.out.println("去0后"+info.getCode());   
            //将info对象添加到数组中  
            head[i] = info;
        }  
        //读取头信息的最后一个内容：文章末尾的补零的个数  
        fileAddZero = dis.read();  
        System.out.println("文件末尾补零"+fileAddZero);         
    }

②读取文件内容，再将这些字节写入一个新的文件，后缀名改成和原来文件一样，就能打开了。

 public void readFile(String path,String newPath) throws IOException{  
        fos = new FileOutputStream(newPath);
        dos=new DataOutputStream(fos);
        //等待转换的字符串  
        String str = "";  
        //当文件可读信息大于零时  
        while(dis.available()>0){  
            //读取一个字节，赋值给整数txt  
            int txt = dis.read();  
            //将该整数转换成01串，该字符串不会以0开头  
            String temp = Integer.toBinaryString(txt);  
            System.out.println(temp+"   nnnn");  
              
            //给转换成的01串，前面补零成完整的8位的字符串  
            int frontAddZero = temp.length()%8;  
            if(frontAddZero!=0){  
                for(int i=0;i<8-frontAddZero;i++){  
                    temp = '0'+temp;                  
                }  
            }  
            System.out.println(temp+">>>>>>>>>>>>");  
            //加到等待转换的字符串后，等待转换  
            str = str+temp;  
            System.out.println(str+" ！！！！等待转换！！！！");  
          
            for(int j=0;j<codeNum;j++){  
                //判断当前等待转换的字符串，是否以码表中的某个编码开头  
                if(str.startsWith((head[j].getCode()))){  
                    //如果是，写入这个编码对应的字符  
                    System.out.println(str+"  ========  "+head[j].getCode());                         
  
                    System.out.println((char)head[j].getAscII());  
                    dos.write(head[j].getAscII());  
                
                    //将等待转换的字符串去掉已经写入的编码部分  
                    String tran = str;  
                    str = "";  
                    for(int k=head[j].getCode().length();k<tran.length();k++){  
                        str = str+tran.charAt(k);  
                    }  
                    //设置循环从头开始判断现在的str是否以某编码开头  
                    j = -1;  
                    //如果此时已经没有可读的文件信息了  
                    if(dis.available()==0){  
                        //将文件末尾添加的0的个数，在str中删去  
                        String tra = str;  
                        str = "";  
                        for(int t=0;t<tra.length()-fileAddZero;t++){  
                            str = str+tra.charAt(t);  
                        }  
                        //如果删去之后字符串空了，那么跳出循环，文件读取完毕  
                        if(str==""){  
                            break;  
                        }  
                        //如果str不为空，那么继续j=-1的地方循环判断是否以某编码开头  
                    }  
                }             
            }//for循环      
        }//while循环  
        //确认文件读取完毕  
        System.out.println(str.length()+" 最后str的长度");  
    }

还要用到其他的类。建立哈夫曼树要用到的哈夫曼的结点类。

public class HfmNode implements Comparable<HfmNode>{  
    //字符的ASCII码值  
    private int AscII;  
    //字符的出现次数  
    private int count;  
    //当前结点的左子结点  
    private HfmNode lChild;  
    //当前结点的右子结点  
    private HfmNode rChild;       
    /** 
     * 构造方法 
     * @param AscII ASCII的值 
     * @param count 文件中的出现次数 
     */  
    public HfmNode(int AscII,int count){  
        this.AscII = AscII; 
        this.setCounts(count);  
    }     
    /** 
     * 得到结点字符ASCII值得方法 
     * @return ASCII码值 
     */  
    public int getAscII() {  
        return AscII;  
    }     
    /** 
     * 设置结点字符的ASCII值 
     * @param ascii 
     */  
    public void setAscII(int AscII) {  
        this.AscII = AscII;  
    }     
    /** 
     * 得到当前结点字符出现次数的方法 
     * @return 
     */  
    public int getCounts() {  
        return count;  
    }  
    /** 
     * 设置当前结点字符出现次数的方法 
     * @param count 
     */  
    public void setCounts(int count) {  
        this.count = count;  
    }  
    /** 
     * 得到当前结点左孩子的方法 
     * @return 左子结点 
     */  
    public HfmNode getlChild() {  
        return lChild;  
    }  
    /** 
     * 设置当前结点左孩子的方法 
     * @param lChild 
     */  
    public void setlChild(HfmNode lChild) {  
        this.lChild = lChild;  
    }  
    /** 
     * 得到当前结点右孩子的方法 
     * @return 右子结点 
     */  
    public HfmNode getrChild() {  
        return rChild;  
    }  
    /** 
     * 设置当前结点右孩子的方法 
     * @param rChild 
     */  
    public void setrChild(HfmNode rChild) {  
        this.rChild = rChild;  
    }  
    /** 
     * 输出hfmNode类对象--哈夫曼结点的方法 
     */  
    public String toString(){  
        return "AscII="+(char)AscII+"counts="+count;  
    }         
    /** 
     * 定义在队列中进行排序比较的属性 
     */  
    public int compareTo(HfmNode o) {  
        return count-o.getCounts();  
    }     
}

要补零的个数，根据ASCII来判断是否是同一个字符

public class Head {
	  //字符ASCII码  
    private int AscII;  
    //字符编码占用字节数  
    private int byteNum;  
    //编码末尾补零数  
    private int zeroNum;  
    //编码  
    private String code = "";  
    /** 
     * 得到ASCII码 
     * @return 
     */  
    public int getAscII() {  
        return AscII;  
    }  
    /** 
     * 设置AscII码  
     * @param AscII 
     */  
    public void setAscII(int AscII) {  
        this.AscII = AscII;  
    }  
    /** 
     * 得到编码占字节数 
     * @return 
     */  
    public int getByteNum() {  
        return byteNum;  
    }  
    /** 
     * 设置编码占字节数 
     * @param byteNum 
     */  
    public void setByteNum(int byteNum) {  
        this.byteNum = byteNum;  
    }  
      
    /** 
     * 得到编码 
     * @return 
     */  
    public String getCode() {  
        return code;  
    }  
      
    /** 
     * 设置编码 
     * @param code 
     */  
    public void setCode(String code) {  
        this.code = code;  
    }  
      
    /** 
     * 得到编码末尾补零个数 
     * @return 
     */  
    public int getZeroNum() {  
        return zeroNum;  
    }  
    /** 
     * 设置编码末尾补零个数 
     * @param zeroNum 
     */  
    public void setZeroNum(int zeroNum) {  
        this.zeroNum = zeroNum;  
    }     
}

哈夫曼编码类

public class Code {
	  //哈夫曼编码  
    private String code = "";     
    /** 
     * 输出Code类对象的方法 
     */  
    public String toString(){  
        return "编码："+code+"长度:"+code.length();  
    }  
    /** 
     * 得到编码内容 
     * @return 
     */  
    public String getCode() {  
        return code;  
    }  
    /** 
     * 设置编码内容 
     * @param code 
     */  
    public void setCode(String code) {  
        this.code = code;  
    }  
}

期间还会用到一些方法，将8个字符的字符串转换成01串对应的整数

 private int changeString(String s) {  
        return ((int)s.charAt(0)-48)*128+((int)s.charAt(1)-48)*64  
                +((int)s.charAt(2)-48)*32+((int)s.charAt(3)-48)*16  
                +((int)s.charAt(4)-48)*8+((int)s.charAt(5)-48)*4  
                +((int)s.charAt(6)-48)*2+((int)s.charAt(7)-48);  
    }

哈夫曼压缩还是有许多问题的，压缩小文件时，压缩好的文件可能比未压缩的还要大，压缩大文件时，又需要很长的时间。所以期待学会下一个压缩方法！