每日OJ题_牛客_字符编码_哈夫曼编码_C++_Java

GR鲸鱼

于 2024-11-22 22:45:00 发布

阅读量349

点赞数 7

分类专栏：每日OJ题（C++_力扣_牛客）文章标签： c++ java 算法数据结构

本文链接：https://blog.youkuaiyun.com/GRrtx/article/details/143970986

版权

每日OJ题（C++_力扣_牛客）专栏收录该内容

110 篇文章

订阅专栏

牛客_字符编码_哈夫曼编码

字符编码_牛客题霸_牛客网

描述：

请设计一个算法，给一个字符串进行二进制编码，使得编码后字符串的长度最短。

数据范围：字符串长度满足 1<n≤1000，本题有多组输入

输入描述：

每组数据一行，为待编码的字符串。保证字符串长度小于等于1000。

输出描述：

一行输出最短的编码后长度。

题目解析

哈夫曼编码模板题：

哈夫曼编码（Huffman Coding）是一种被广泛使用的可变长度编码方式，由David A. Huffman在1952年提出。它主要用于数据压缩领域，特别是当数据的某些部分比其他部分更频繁地出现时。哈夫曼编码基于一种贪心算法来构建一棵最优二叉树（通常称为哈夫曼树），用于对数据进行编码。

以下是哈夫曼编码的基本概念和工作原理：

频率统计：首先，统计输入数据中每个符号（如字符、单词或任何其他可识别的单元）出现的频率。
构建哈夫曼树：使用这些频率作为权重，通过贪心算法构建一棵哈夫曼树。在构建过程中，权重最小的两个节点被合并为一个新的内部节点，该内部节点的权重为两个子节点权重之和。这个过程一直重复，直到只剩下一个节点（即树的根）。
生成编码：在哈夫曼树中，从根节点到每个叶子节点的路径（通过左子节点或右子节点）被转换为一串二进制数，这就是该叶子节点对应符号的哈夫曼编码。由于树的构建是基于权重的，因此更常见的符号（即权重更大的符号）通常具有较短的编码，而不常见的符号则具有较长的编码。
编码数据：使用生成的哈夫曼编码替换输入数据中的每个符号。
解码数据：由于哈夫曼编码是前缀码（即任何符号的编码都不是另一个符号编码的前缀），因此解码过程相对简单。只需按照编码的二进制串在哈夫曼树中查找即可。

哈夫曼编码是一种非常有效的数据压缩方法，特别适用于那些符号频率分布不均匀的数据。然而，由于需要构建哈夫曼树和生成编码，因此哈夫曼编码的压缩和解压过程相对较慢。此外，哈夫曼编码生成的压缩数据是自适应的，即不同的数据可能生成不同的哈夫曼树和编码，因此通常需要在压缩数据中附带哈夫曼树的信息以便于解压。

C++代码

#include <iostream>
#include <vector>
#include <string>
#include <queue>
using namespace std;
int main()
{
    string s;
    while(cin >> s)
    {
        // 1. 先统计每个字符的频次
        int hash[300] = { 0 };
        for(auto ch : s)
        {
            hash[ch]++;
        }
        // 2. 把所有的频次放⼊堆⾥⾯
        priority_queue<int, vector<int>, greater<int>> heap;
        for(int i = 0; i < 300; i++)
        {
            if(hash[i])
            {
                heap.push(hash[i]);
            }
        }
        // 3. 哈夫曼编码
        int ret = 0;
        while(heap.size() > 1)
        {
            int t1 = heap.top();
            heap.pop();
            int t2 = heap.top();
            heap.pop();
            ret += t1 + t2;
            heap.push(t1 + t2);
        }
        cout << ret << endl;
    }
    return 0;
}

Java代码

import java.util.*;
// 注意类名必须为 Main, 不要有任何 package xxx 信息
public class Main
{
    public static void main(String[] args) 
    {
        Scanner in = new Scanner(System.in);
        while(in.hasNext())
        {
            char[] s = in.next().toCharArray();
            // 1. 统计所有字符的频次
            int[] hash = new int[300];
            for(char ch : s)
            {
                hash[ch]++;
            }
            // 2. 把所有的频次放⼊堆⾥⾯
            PriorityQueue<Integer> heap = new PriorityQueue<>();
            for(int i = 0; i < 300; i++)
            {
                if(hash[i] != 0)
                {
                    heap.offer(hash[i]);
                }
            }
            // 3. 哈夫曼编码
            int ret = 0;
            while(heap.size() > 1)
            {
                int t1 = heap.poll();
                int t2 = heap.poll();
                ret += t1 + t2;
                heap.offer(t1 + t2);
            }
            System.out.println(ret);
        }
    }
}