python 霍夫曼解码

Huffman Tree 进行解码 示例图   

c语言:c语言 霍夫曼编码 | 贪婪算法(Huffman Coding | Greedy Algo)_霍夫曼的贪婪c语言-优快云博客

c++:c++ 霍夫曼编码 | 贪婪算法(Huffman Coding | Greedy Algo)_霍夫曼的贪婪算法设计核心代码-优快云博客

c#:C# 霍夫曼编码 | 贪婪算法(Huffman Coding | Greedy Algo)-优快云博客

c++ STL:c++ STL 霍夫曼编码 | 贪婪算法(Huffman Coding | Greedy Algo)-优快云博客

java:java 霍夫曼编码 | 贪婪算法(Huffman Coding | Greedy Algo)-优快云博客

python:python 霍夫曼编码 | 贪婪算法(Huffman Coding | Greedy Algo)-优快云博客

javascript:JavaScript 霍夫曼编码 | 贪婪算法(Huffman Coding | Greedy Algo)-优快云博客

我们在之前的文章中 讨论了霍夫曼编码。在这篇文章中,我们将讨论解码。

例子:

输入数据: AAAAAABCCCCCCDDEEEEE
频率: A:6,B:1,C:6,D:2,E:5

编码数据: 00000000000011001010101010111111110101010

哈夫曼树: “#”是用于内部节点的特殊字符,因为
                         内部节点不需要字符字段。 

                    #(20)
                  / \
          #(12) #(8)
         / \ / \
     A(6) C(6) E(5) #(3)
                                 / \
                             B(1) D(2)  

‘A’ 的代码是 ‘00’,‘C’ 的代码是 ‘01’,..

解码数据: AAAAAAABCCCCCCDDEEEEE

输入数据: GeeksforGeeks

字符 频率为
e 10, f 1100, g 011, k 00, o 010, r 1101, s 111

编码的哈夫曼数据: 01110100011111000101101011101000111
解码的哈夫曼数据: geeksforgeeks

请按照以下步骤解决问题:

        注意:要解码编码数据,我们需要霍夫曼树。我们遍历二进制编码数据。要找到与当前位对应的字符,我们使用以下简单步骤:

        1、我们从根开始,依次进行,直到找到叶子。
        2、如果当前位为 0,我们就移动到树的左节点。
        3、如果该位为 1,我们移动到树的右节点。
        4、如果在遍历过程中遇到叶节点,我们会打印该特定叶节点的字符,然后再次从步骤 1 开始继续迭代编码数据。

        下面的代码将一个字符串作为输入,对其进行编码,并将其保存在变量编码字符串中。然后对其进行解码并打印原始字符串。 

下面是上述方法的实现:

import heapq
from collections import defaultdict
 
# to map each character its huffman value
codes = {}
 
# To store the frequency of character of the input data
freq = defaultdict(int)
 
# A Huffman tree node
class MinHeapNode:
    def __init__(self, data, freq):
        self.left = None
        self.right = None
        self.data = data
        self.freq = freq
 
    def __lt__(self, other):
        return self.freq < other.freq
 
# utility function to print characters along with
# there huffman value
def printCodes(root, str):
    if root is None:
        return
    if root.data != '$':
        print(root.data, ":", str)
    printCodes(root.left, str + "0")
    printCodes(root.right, str + "1")
 
# utility function to store characters along with
# there huffman value in a hash table
def storeCodes(root, str):
    if root is None:
        return
    if root.data != '$':
        codes[root.data] = str
    storeCodes(root.left, str + "0")
    storeCodes(root.right, str + "1")
 
# function to build the Huffman tree and store it
# in minHeap
def HuffmanCodes(size):
    global minHeap
    for key in freq:
        minHeap.append(MinHeapNode(key, freq[key]))
    heapq.heapify(minHeap)
    while len(minHeap) != 1:
        left = heapq.heappop(minHeap)
        right = heapq.heappop(minHeap)
        top = MinHeapNode('$', left.freq + right.freq)
        top.left = left
        top.right = right
        heapq.heappush(minHeap, top)
    storeCodes(minHeap[0], "")
 
# utility function to store map each character with its
# frequency in input string
def calcFreq(str, n):
    for i in range(n):
        freq[str[i]] += 1
 
# function iterates through the encoded string s
# if s[i]=='1' then move to node->right
# if s[i]=='0' then move to node->left
# if leaf node append the node->data to our output string
def decode_file(root, s):
    ans = ""
    curr = root
    n = len(s)
    for i in range(n):
        if s[i] == '0':
            curr = curr.left
        else:
            curr = curr.right
 
        # reached leaf node
        if curr.left is None and curr.right is None:
            ans += curr.data
            curr = root
    return ans + '\0'
 
# Driver code
if __name__ == "__main__":
    minHeap = []
    str = "geeksforgeeks"
    encodedString, decodedString = "", ""
    calcFreq(str, len(str))
    HuffmanCodes(len(str))
    print("Character With there Frequencies:")
    for key in sorted(codes):
        print(key, codes[key])
 
    for i in str:
        encodedString += codes[i]
 
    print("\nEncoded Huffman data:")
    print(encodedString)
 
    # Function call
    decodedString = decode_file(minHeap[0], encodedString)
    print("\nDecoded Huffman Data:")
    print(decodedString)

输出:
具有以下频率的字符:

e 10
f 1100
g 011
k 00
o 010
r 1101
s 111

编码的哈夫曼数据:
01110100011111000101101011101000111

解码的哈夫曼数据:
geeksforgeeks

时间复杂度:

        霍夫曼编码算法的时间复杂度为O(n log n),其中n为输入字符串的字符个数。辅助空间复杂度也是O(n),其中n为输入字符串的字符个数。

        在给定的 python 实现中,时间复杂度主要由使用优先级队列创建 Huffman 树决定,这需要 O(n log n) 时间。空间复杂度主要由用于存储字符频率和代码的映射决定,这需要 O(n) 空间。用于打印代码和存储代码的递归函数也增加了空间复杂度。

比较输入文件大小和输出文件大小: 
        比较输入文件大小和霍夫曼编码的输出文件。我们可以用一种简单的方法计算输出数据的大小。假设我们的输入是一个字符串“geeksforgeeks”,存储在文件 input.txt 中。 

输入文件大小:

输入: “geeksforgeeks”
字符总数即输入长度:13
大小: 13 个字符出现次数 * 8 位 = 104 位或 13 个字节。

输出文件大小:

输入: “geeksforgeeks”

——————————————————
字符 | 频率 | 二进制哈夫曼值 |
——————————————————

   e | 4 | 10 |
   f | 1 | 1100 |   
   g | 2 | 011 |
   k | 2 | 00 |
   o | 1 | 010 |
   r | 1 | 1101 |
   s | 2 | 111 | 

—————————————————

因此要计算输出大小:

e:出现 4 次 * 2 位 = 8 位
f:出现 1 次 * 4 位 = 4 位
g:出现 2 次 * 3 位 = 6 位
k:出现 2 次 * 2 位 = 4 位
o:出现 1 次 * 3 位 = 3 位
r:出现 1 次 * 4 位 = 4 位
s:出现 2 次 * 3 位 = 6 位

总和: 35 位,约 5 字节

        由此可见,编码后的数据量是比较大的,上面的方法也可以帮我们确定N的值,也就是编码后数据的长度。 

霍夫曼编码是一种广泛使用的无损数据压缩算法,其核心思想是通过构建一棵带权路径最短的二叉树(霍夫曼树),为高频出现的字符分配较短的编码,为低频出现的字符分配较长的编码,从而实现高效压缩。在 Python 中,虽然标准库中没有直接实现霍夫曼编码的模块,但可以借助一些第三方库或自行实现相关算法。 ### 1. 使用 `bitarray` 库进行位操作 霍夫曼编码涉及大量的位操作,例如将字符编码为二进制串并进行打包和解包。Python 中的 `bitarray` 库非常适合这一任务,它提供了高效的位数组操作,便于构建和处理二进制数据流。 安装方式: ```bash pip install bitarray ``` 示例代码片段: ```python from bitarray import bitarray # 示例字符编码 code_table = { 'a': bitarray('0'), 'b': bitarray('10'), 'c': bitarray('11') } # 编码过程 text = "abac" encoded = bitarray() for char in text: encoded.extend(code_table[char]) # 写入文件 with open('compressed.bin', 'wb') as f: encoded.tofile(f) ``` ### 2. 自行实现霍夫曼编码类 虽然没有现成的库直接提供霍夫曼编码功能,但可以根据算法原理自行实现。通常包括以下组件: - **节点类**:用于构建霍夫曼树 - **优先队列**:使用 `heapq` 模块实现最小堆 - **编码与解码函数** 示例代码: ```python import heapq from collections import Counter class HuffmanNode: def __init__(self, char, freq): self.char = char self.freq = freq self.left = None self.right = None def __lt__(self, other): return self.freq < other.freq def build_huffman_tree(freq_map): heap = [HuffmanNode(char, freq) for char, freq in freq_map.items()] heapq.heapify(heap) while len(heap) > 1: left = heapq.heappop(heap) right = heapq.heappop(heap) merged = HuffmanNode(None, left.freq + right.freq) merged.left = left merged.right = right heapq.heappush(heap, merged) return heap[0] ``` ### 3. 霍夫曼编码的应用场景 基于纯霍夫曼算法的压缩程序能够对未经压缩的文件格式起到压缩作用,特别是对字节种类不多、重复次数多的文件格式如 BMP 位图、AVI 视频等能够起到非常好的压缩效果,但对于本身已经经过压缩的文件格式如 DOCX、MP4 等基本无效 [^2]。 此外,在实际运行测试过程中发现,对于权值相同的字符,每次迭代排序时编码要么是 0、要么是 1,这往往造成成对的编译码错误,问题主要出在以下代码中: ```python sorts = sorted(l, key=lambda x: x.value, reverse=False) ``` 因此,在实现过程中应特别注意节点排序策略,确保编码的一致性和正确性 [^3]。 ### 4. 面向对象设计与扩展性 在实现霍夫曼编码的过程中,可以采用面向对象设计来提高代码的可扩展性与灵活性。例如,使用策略模式处理不同的编码策略,使用工厂模式创建节点对象,使用递归模式构建霍夫曼树 [^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hefeng_aspnet

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值