99、图像编码与语音识别技术新进展

最新推荐文章于 2025-11-12 11:57:50 发布

delta

最新推荐文章于 2025-11-12 11:57:50 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络前沿探秘文章标签： SPIHT算法小波图像编码量化改进

本文链接：https://blog.youkuaiyun.com/delta/article/details/153757853

神经网络前沿探秘专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

图像编码与语音识别技术新进展

在图像编码和语音识别领域，一直以来都在不断探索更高效、更准确的技术方法。下面将分别介绍小波图像编码中SPIHT算法的量化改进以及基于分段声学模型的普通话大词汇量连续语音识别系统的相关研究。

小波图像编码中SPIHT算法的量化改进

传统的低比特率小波变换编码器常采用近乎均匀的量化器。嵌入式算法以逐步减小的量化步长（如 $\Delta = 2^n$ ）对小波系数 $\hat{w}[m]$ 进行均匀量化。然而，小波系数的量化模型会影响小波编码器的性能，因此需要寻找关于小波系数的先验信息来改进量化策略。

SPIHT编码器

SPIHT编码器利用小波金字塔将图像的小波系数组织成空间方向树。它按幅度对变换系数进行排序，并通过集合划分算法对排序信息进行编码，该算法在解码器端重现。同时，它会对细化位进行位平面传输，并利用图像小波金字塔分解在不同尺度上的自相似性。SPIHT编码器使用三种类型的集合：
- $D(i, j)$：表示节点 $(i, j)$ 的所有后代的集合。
- $O(i, j)$：表示节点 $(i, j)$ 的所有子节点的集合。
- $L(i, j)$：表示节点 $(i, j)$ 的所有后代，不包括其直接的四个子节点，即 $L(i, j) = D(i, j) - O(i, j)$。

对于坐标为 $(i, j)$ 的小波系数 $w_{i, j}$ ，如果 $|w_{i, j}| \geq T$（在分辨率为 $n$ 时，$T = 2^n$ ），则称其相对于给定阈值 $T$ 是显著的；否则，称为不显著的。

SPIHT编码器在初始化阶段从最高有效位平面开始，首先向解码器输出 $p$ ，计算公式为：
$p = \lfloor \log_2(\max_{(i, j)} |w_{i, j}|) \rfloor$

在每个位平面，它按顺序测试树列表，从对不重要像素列表（LIP）进行编码开始。那些变得显著的像素会被移动到重要像素列表（LSP）的末尾，并对其符号进行编码。同样，集合 $D(i, j)$ 和 $L(i, j)$ 会按照不重要集合列表（LIS）的顺序依次编码，那些变得显著的集合会被划分为子集。最后，在每次细化过程中，除了最后一次排序过程中添加的系数外，LSP中的每个系数都会被细化。该算法会对下一个分辨率重复上述过程，直到达到所需的比特率。

现有SPIHT算法的不足

SPIHT编码器使用二进制均匀量化，其编码结构和利用策略基于零树根。但这些简单方法存在两个明显的缺点：
- 对每个量化平面同等对待：某些平面中可能只有很少的显著系数，但仍需要对同一子带中不显著系数的位置进行编码，以确保解码器能正确恢复值信息。
- 高频子带和低频子带系数同时扫描和编码：低频子带中每个小波系数的能量通常高于高频子带，因此在比特流中会编码一些表示零树根但并非总是必要的标签 0 ，导致显著系数的编码效率不高。

改进方法

通过使用9/7滤波器对大小为 $512×512$ 的测试图像进行多尺度分解，分析小波系数。结果发现，第六层小波分解子带（如LL6、HL6、LH6、HH6）中，LL6的位平面数比其他子带多。例如，对于LENA图像，$2^{13} < 1.205e + 4 < 2^{14}$ ，$2^{11} < 3.510e + 3 < 2^{12}$ ，两者位平面相差 2 。这一现象为对不同子带的小波系数采用多尺度量化步长提供了机会，从而避免在比特流中编码传统SPIHT方法中表示零树根的标签 0 。

新的编码算法基于以下四个主要概念：
1. 计算两个最大绝对值：$\max_{(i, j) \in LL_n} |w_{i, j}|$ 和 $\max_{(i, j) \in {LH_n, HL_n, HH_n}} |w_{i, j}|$ （如果最大小波分解级别为 $n$ ）。
2. 计算两个最大值之间的位平面差异。
3. 仅在较高位平面对 $LL_n$ 中的系数进行量化和编码。
4. 使用类似SPIHT的方法对其余小波系数进行编码。

新编码算法的步骤如下：

program sq - coding (Output)
a) -- 对原始图像进行9/7离散小波变换（DWT）
b) -- $k_1 = \lfloor \log_2(\max_{(i, j) \in LL_n} |w_{i, j}|) \rfloor$
    -- $k_2 = \lfloor \log_2(\max_{(i, j) \in \{LH_n, HL_n, HH_n\}} |w_{i, j}|) \rfloor$
c) 对 $LL_n$ 中的小波系数进行编码：
    -- 对于每个 $p = k_2 - 1, k_2, \cdots, k_1$ 执行
       { 如果每个 $w_{i, j} \in LL_n$ 是显著的
                { 编码输出 1 ;
                   $w_{i, j} = w_{i, j} - 2^p$ }
          否则
                { 编码输出 0; } }
   ;注意：按列（或行）顺序扫描
d) 使用SPIHT对其余系数进行编码。

实验结果

在实现新算法时，输入图像采用基于9/7 DWT的六层小波分解。对Barbara、Lena、Airplane和Boat等 $512×512$ 的灰度图像进行实验，通过峰值信噪比（PSNR）来衡量解码图像的失真程度，计算公式为：
$PSNR(dB) = 10 \log_{10}(\frac{255^2}{MSE})$

其中，MSE表示原始图像和重建图像之间的均方误差。实验结果表明，新方法在PSNR方面有明显改善，尤其是在低比特率下表现出色，主要原因是该方法提高了最低频率子带的编码比率。具体的PSNR性能比较如下表所示：
| 图像 | 比特率 | SPIHT (dB) | 新方法 (dB) |
| ---- | ---- | ---- | ---- |
| Lena | 0.01dpp | 22.557 | 22.908 |
| Lena | 0.05dpp | 27.170 | 27.277 |
| Lena | 0.1dpp | 29.816 | 29.892 |
| Lena | 0.2dpp | 32.731 | 32.769 |
| Barbara | 0.01dpp | 20.029 | 20.386 |
| Barbara | 0.05dpp | 22.617 | 22.730 |
| Barbara | 0.1dpp | 23.959 | 23.990 |
| Barbara | 0.2dpp | 26.186 | 26.220 |
| Airplane | 0.01dpp | 22.253 | 22.613 |
| Airplane | 0.05dpp | 26.224 | 26.315 |
| Airplane | 0.1dpp | 28.945 | 29.049 |
| Airplane | 0.2dpp | 32.108 | 32.141 |
| Boat | 0.01dpp | 21.963 | 22.227 |
| Boat | 0.05dpp | 25.698 | 25.791 |
| Boat | 0.1dpp | 27.598 | 27.641 |
| Boat | 0.2dpp | 30.168 | 30.216 |

基于分段声学模型的普通话大词汇量连续语音识别系统

在语音识别领域，分段模型（SM）与传统的隐马尔可夫模型（HMM）在解码方式上有所不同。HMM以帧为基础进行解码，而SM以分段方式对观察序列进行建模和解码，这种特性可以克服HMM的一些局限性，如特征向量在给定状态序列下的条件独立性假设，以及用分段状态序列对非平稳观察序列进行建模的问题。实验证明，SM在连接词识别任务中表现优于HMM，但由于其复杂度的限制，尚未有将其作为大词汇量连续语音识别（LVCSR）的解码声学模型的报道。

快速随机分段模型（SSM）

SSM介绍 ：系统中的声学模型采用SSM，它通过固定长度的区域序列来表示观察序列。使用重采样函数将可变长度的段 $x_1^N$ 映射到固定长度的帧序列 $y_1^L$ 。通常，使用 $L×d$ 维的多元高斯分布来对段进行建模，其中 $L$ 是所谓“区域”的固定帧长，$d$ 是每个帧中特征向量的维度。段 $x_1^N$ 在给定模型 $\alpha$ 下的对数条件概率为：
$\ln[p(x_1^N | \alpha)] = \sum_{i = 1}^{L} \ln[p(y_i | \alpha, r_i)]$

在句子 $x_1^T$ 中的解码过程为：
$J_m^* = \max_{\tau, \alpha} { \ln[p(x_{\tau}^m | \alpha)] + \lambda \ln(P(x_{\tau}^m | \alpha)) + \ln[P(\tau | \alpha)] - C }$

$\varphi_m^ = \arg \max_{\tau, \alpha} J_m^ $ ，其中 $0 \leq m \leq T$

其中，$J_m^ $ 是在时间点 $m$ 结束的最佳参考模型序列的累积得分，$p(x_{\tau}^m | \alpha)$ 是段 $x_{\tau}^m$ 的似然得分，$P(x_{\tau}^m | \alpha)$ 是分段级别的信息（如持续时间分布），$C$ 是每个段的惩罚因子。最终的最佳路径解为 $\varphi_T^ $ ，可以从观察序列的终点 $T$ 回溯得到路径。
- 快速SSM算法 ：SM的高复杂度源于段得分的评估无法分解，且得分评估的中间信息在不同段之间不可共享。大多数加速SM的工作都集中在高效的剪枝算法上，但这些算法的计算仍基于段，而HMM基于帧，因此速度仍远慢于HMM。

SSM可以归入约束平均轨迹分段模型（CMTSM）。在给定段的情况下，对一个区域的计算与其他区域无关，仅与观察向量和区域在CMTSM中的位置有关。段得分是区域得分的线性求和，无需复杂操作（如动态时间规整）。快速SM的关键是将段的计算分解为一系列标准区域模型的计算，这些标准区域模型的得分可以在仅在观察向量的一小部分不同的不同段之间共享。在快速SSM中，区域模型的参数是固定的，可变长度的段通过线性重采样映射到区域模型。在每个时间点，只计算当前特征向量对所有活动区域模型的得分，而不是活动段模型的得分。虽然快速SSM算法基于段，但主要计算（概率分布的测量）基于帧。该快速算法将SSM的计算时间成本降低到原来的十分之一，在数字串识别任务中，使用快速算法后，SSM的运行时间与基于三音子的HMM系统处于同一水平，为在当前计算环境下将SSM应用于LVCSR系统铺平了道路。

SSM基于的LVCSR系统

参数绑定 ：在LVCSR中，普通话的上下文相关模型（如三音子上下文）数量非常大，因此需要参数绑定技术来减少参数数量，降低计算复杂度并提高模型的鲁棒性。采用的参数绑定方法包括CART绑定和全局绑定。
- CART绑定 ：首先使用CART对来自相同单音素但不同上下文的模型中的区域进行聚类，用于绑定的区域位于分段模型的相同区域位置。使用合适大小的树算法自动确定CART的大小，系统中的问题集与相关文献类似，但不使用声调问题。
- 全局绑定 ：在第一步之后，区域模型在相同区域位置的建模能力和复杂度之间达到了最佳平衡，但不同区域位置和不同音素类别的区域模型的参数绑定尚未考虑。采用自底向上的策略在整个区域集中合并区域模型，如果两个节点合并后概率似然的减少小于预设阈值，则将它们合并为一个新节点；否则，合并过程停止。第一步是为了获得一个鲁棒的模型，第二步是为了获得一个高效的模型。
CF算法 ：在HMM中，一个状态通过与其他状态竞争自动确定停止点。而在SSM中，一个段需要通过与其他段竞争来找到最佳边界，并且在测量段得分之前，段并不知道其最佳边界。因此，需要从相同的起始时间点计算不同长度的假设段（从最小长度到最大长度），而大多数这些扩展是无用的。为了解决这个问题，提出了一种从粗到细（CF）的算法。

综上所述，通过对小波图像编码中SPIHT算法的量化改进以及基于分段声学模型的普通话大词汇量连续语音识别系统的研究，为图像编码和语音识别领域提供了新的思路和方法，有望在实际应用中取得更好的效果。

图像编码与语音识别技术新进展

基于分段声学模型的普通话大词汇量连续语音识别系统（续）

CF算法具体内容 ：CF算法的核心思想是先进行粗粒度的搜索，快速排除那些明显不可能的假设段，减少不必要的计算。具体操作流程如下：
1. 粗粒度搜索 ：从起始时间点开始，以较大的步长生成一系列假设段。例如，设定一个初始的步长，每隔这个步长生成一个假设段，计算这些假设段的得分。这里的得分可以根据之前提到的解码公式中的各项得分综合计算。
2. 筛选假设段 ：根据粗粒度搜索得到的得分，设定一个阈值，只保留得分高于该阈值的假设段。这些保留的假设段被认为是有潜力成为最佳边界的段。
3. 细粒度搜索 ：对保留下来的假设段，以较小的步长进行进一步的细化搜索。在这个过程中，计算更精确的得分，以确定最佳的段边界。

通过这种从粗到细的搜索方式，避免了对所有可能的假设段进行无差别的计算，大大提高了搜索效率。

两级剪枝 ：为了进一步提高解码速度，系统还采用了两级剪枝策略。
- 第一级剪枝 ：在解码的早期阶段，对那些得分明显低于某个阈值的假设路径进行剪枝。例如，在计算每个假设段的得分时，如果某个段的得分远低于当前最优得分的一定比例，就将该段对应的路径剪掉，不再进行后续的计算。
- 第二级剪枝 ：在解码过程中，根据已经得到的部分结果，动态调整剪枝阈值。当解码进行到一定阶段后，对于那些后续发展潜力不大的路径进行剪枝。例如，如果某个路径在后续的扩展中得分增长缓慢，且与当前最优路径的差距越来越大，就将该路径剪掉。

这种两级剪枝策略可以有效地减少搜索空间，加快解码速度。

实验结果与分析

在实验中，构建了一个基于SM的普通话LVCSR系统，采用上述的参数绑定、CF算法和两级剪枝技术来提高解码速度。实验使用了Test - 863数据语料库，对系统的性能进行了评估。

实验结果显示，系统在该语料库中达到了87.09%的音节准确率，并且解码时间在4倍实时内完成。以下是一个简单的实验结果表格：
| 指标 | 数值 |
| ---- | ---- |
| 音节准确率 | 87.09% |
| 解码时间（相对于实时） | 4倍 |

从实验结果可以看出，虽然SM在复杂度上存在一定的挑战，但通过合理利用其结构信息和采用高效的算法，如快速SSM、参数绑定、CF算法和两级剪枝等，能够在大词汇量连续语音识别任务中取得较好的性能。这表明SM为LVCSR系统提供了一个可行的替代选择，但还需要进一步研究其快速算法，以充分发挥其潜力。

总结与应用前景

本文介绍的图像编码和语音识别领域的两项技术，都在相应的领域中展现出了新的优势和潜力。

在图像编码方面，对SPIHT算法的量化改进通过多尺度量化步长的方法，提高了编码效率，尤其是在低比特率下表现出色。这对于需要在有限带宽下进行图像传输和存储的应用场景，如无线通信、监控系统等具有重要意义。例如，在无线监控系统中，采用改进后的SPIHT算法可以在保证一定图像质量的前提下，减少传输的数据量，降低带宽需求。

在语音识别方面，基于分段声学模型的普通话LVCSR系统为语音识别技术提供了新的思路。SM在连接词识别任务中的优势，以及通过一系列优化算法在LVCSR任务中取得的良好性能，为语音识别系统的发展提供了新的方向。未来，随着算法的进一步优化和计算能力的提升，SM有望在智能语音助手、语音交互设备等领域得到更广泛的应用。

以下是一个简单的流程图，展示了整个研究内容的逻辑关系：

graph LR
    A[图像编码] --> B[SPIHT算法量化改进]
    B --> C[分析现有不足]
    C --> D[提出改进方法]
    D --> E[实验验证效果]
    F[语音识别] --> G[基于SM的LVCSR系统]
    G --> H[快速SSM算法]
    G --> I[参数绑定]
    G --> J[CF算法]
    G --> K[两级剪枝]
    H & I & J & K --> L[实验评估性能]

综上所述，这两项技术的研究为图像编码和语音识别领域的发展注入了新的活力，有望在实际应用中带来更好的用户体验和经济效益。