声码器_shichaog的博客-优快云博客

声码器

关注

文章平均质量分 94

在语音和音乐的应用场景中，声码器是最为关键的存在，不论是语音生成（TTS）以及音乐生成（Music Generation）中，还是倍速、变声等效果处理上，声码器的支持不可或缺，本博客围绕声码器的发展史，介绍声码器发展情况和相关的技术现状

关注数：文章数：4 文章阅读量：4731 文章收藏量：84

作者: shichaog

这个作者很懒，什么都没留下…

展开

第四章神经网络声码器

WaveNet 是DeepMind 提出的一种深度学习声码器，2016 年 9 月的一篇论文中进行了概述[1]，旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音（TTS）系统的语音质量提出的，其采用卷积神经网络生成音频波形，实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源，这使得它在实际应用中受到了限制。

原创 2025-01-12 23:04:26 · 1242 阅读 · 0 评论
第三章 WORLD 声码器

WORLD Vocoder由日本学者开发，主要用于提高音频信号处理时音质的保真度，通过对传统的Vocoder方法进行改良，提供更加清晰的语音合成效果，常用于语音研究和音乐制作，其优点在于可以用在实时系统上，在算力和效果上做了很好的平衡。谱分析（Spectral Analysis），谱分析是用来从语音信号中提取声谱特征的技术。它涉及到将语音信号分解为一系列的频率组成部分，以便于更细致地理解和处理这些成分。

原创 2025-01-12 15:08:51 · 1004 阅读 · 0 评论
第二章线性预测编码（LPC）

这里主要是LPC声码器，这部分的内容绝大部分摘自我的专利《》，对内部细致的实现，以及LPC声码器在音频编解码上如何使用的，可以参看该专栏线性预测编码（LPC）是一种主要用于音频信号处理和语音处理的方法，用于使用线性预测模型的信息以压缩形式表示数字语音信号的频谱包络。LPC 通过估计共振峰、从语音信号中去除它们的影响以及估计剩余“噪声”的强度和频率来分析语音信号。去除共振峰的过程称为逆滤波，减去滤波后的建模信号后剩余的信号称为残差。LPC 是语音编码、语音合成以及歌声合成中使用最广泛的方法。

原创 2025-01-11 20:22:19 · 1203 阅读 · 0 评论
第一章相位编码器（Phase Vocoder）

开篇先留一个问题，现在TTS大模型、音乐生成大模型的“电音”/“机器音”/“合成音”、“金属感”、以及清晰度低在信号层面该如何解释？

原创 2025-01-11 17:50:49 · 1284 阅读 · 0 评论

声码器

作者: shichaog

第四章 神经网络声码器

第三章 WORLD 声码器

第二章 线性预测编码（LPC）

第一章 相位编码器（Phase Vocoder）

第四章神经网络声码器

第二章线性预测编码（LPC）

第一章相位编码器（Phase Vocoder）