NN_Audio
文章平均质量分 91
音频类模型
迪三
聚焦AIGC应用技术 (Email:disanda@foxmail.com)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GPT-Sovits-2-微调模型
上一步整理完数据集后,此步输入数据, 微调2个模型VITS和GPT,位置在 下的这一步微调VITS的预训练模型,即微调SynthesizerTrn模型这一步微调GPT的预训练模型,这里采用的是google的soundstorm复现模型结构文件在:’ ./GPT_SoVITS/AR/models/t2s_model.py’注意,两个模型微调是独立的, 可分别完成。原创 2024-10-29 17:53:54 · 2155 阅读 · 0 评论 -
GPT-Sovits-1-数据处理
将音频切割为多个10s内的片段。原创 2024-10-29 17:51:34 · 916 阅读 · 0 评论 -
音频处理1_基本概念
AI音频处理 基本概念原创 2024-06-13 12:53:57 · 1791 阅读 · 0 评论 -
音频处理2_进阶概念
本节主要对”音乐”和”人声“等概念初步整理,并过度到AI模型的讲解,本节后续会有补充或修改。原创 2024-06-18 21:50:07 · 1110 阅读 · 0 评论 -
音频处理3_时域频域
本节主要讲音频的 时域 到 频域的变换和理解原创 2024-06-20 00:03:59 · 1564 阅读 · 0 评论 -
音频处理4_音高(频率) & 强度(分贝)
介绍音频:”音高”的概念,与对应频率单位,和不同频率的音频感知分类。再介绍声音”强度”的概念,即响度,对应“分贝”单位,及不同强度音频的感知和分类。原创 2024-06-27 15:26:45 · 4924 阅读 · 0 评论 -
音频处理5_傅里叶变换
傅里叶变换相关概念和代码原创 2024-06-28 01:13:49 · 1691 阅读 · 0 评论 -
音频处理6_时频谱
介绍 时频表征-分析 (time-frequency representation/analysis) 常用的 时频图原创 2024-07-08 00:54:01 · 1588 阅读 · 0 评论 -
音频处理7_MFCCs
短时傅里叶变换 (Short-Time Fourier Transform, STFT) 是一种时频谱转换算法,它通过在时间上移动窗口函数并计算窗口内信号的频谱来获得信号在时间和频率上的信息。填充信号可以确保每个窗口都有足够的数据进行频谱计算,特别是在窗口函数的边缘。窗口函数主要用于信号处理中的短时傅里叶变换(STFT)、滤波器设计和其他需要对信号进行窗函数处理的场景, 可减少频谱泄漏,避免傅里叶变换中的频谱混叠。原创 2024-07-08 00:50:19 · 1094 阅读 · 0 评论 -
音频处理8_短时傅里叶变换
频谱特性:汉宁窗口的频谱具有较低的旁瓣(sidelobe),这意味着它能够有效地抑制频谱泄漏,主瓣(mainlobe)较宽,这会降低频率分辨率。短时傅里叶变换:STFT通过对信号进行分段,对每个片段应用汉宁窗口,能减少频谱泄漏,获得更准确的频谱信息。本节代码。原创 2024-08-05 15:59:35 · 1691 阅读 · 0 评论 -
音频数据集1-LJSpeech单人语音
LJ Speech Dataset原创 2024-06-23 00:58:10 · 1700 阅读 · 0 评论 -
语音数据集2-VCTK多人音频
VCTK数据集介绍原创 2024-06-23 01:02:54 · 1989 阅读 · 0 评论 -
音频模型_HiFiGAN源码解析1
HiFiGAN 解析原创 2024-07-30 14:34:55 · 1130 阅读 · 0 评论 -
音频模型_HiFiGAN源码解析2
HiFiGAN-2原创 2024-07-30 14:41:06 · 856 阅读 · 0 评论 -
VITS源码解析1- 简介&数据预处理
VITS项目源代码解读原创 2024-09-12 21:46:15 · 1591 阅读 · 0 评论 -
VITS源码解析2-模型概述
模型部分包含三个文件注意机制就是transformer,在文本编码器中用到了,transformer的encoder。modules.py这个包含模型的一些基础结构(blocks), 比如Norm, Conv, Resblock等models.py这个是VITS核心的模型结构,前两个文件只是其基础。原创 2024-09-14 15:49:27 · 1515 阅读 · 1 评论 -
VITS源码解析3-SynthesizerTrn
neg_cent2, neg_cent3, neg_cent4: 这些项结合了模型生成的潜在变量 z_p 和高斯分布的均值 m_p,并通过加权求和的方式编码了目标序列与源序列的匹配程度。仅用于训练,将x_mask和y_mask计算得到attn_mask,将logs_p和m_p (来自 enc_p) 与z_flow (enc_q)计算得到的neg_cent。neg_cent 是一个成本矩阵,它的每一行代表目标序列中的位置(音频),每一列代表源序列中的位置(文本),动态规划帮助我们找到最优的映射。原创 2024-09-18 16:36:46 · 1400 阅读 · 0 评论 -
VITS源码解读4-辅助文件
本节介绍多个文件:频谱 spectrogram 转换为 mel_spectrogram 的操作函数losses.py训练模型用到的损失函数utils.py一个工具包,包含项目运行所需的辅助类或函数commons.py包含训练网络时对数据处理函数(暂略)原创 2024-09-27 00:30:29 · 996 阅读 · 0 评论 -
VITS源码解读5-commons.py
该文件包含多种通用向量运算函数,部分比较抽象, 共18个函数。原创 2024-09-27 00:31:54 · 1157 阅读 · 0 评论 -
VITS源码解读6-训练&推理
VITS到这里就告于段落了, 后面的VITS2改进了VITS的dp模型(flow变gan),在cosvoice等模型里面也能见到VITS的主干网络。因此, VITS是音频tts和vc、sc的核心技术。原创 2024-09-28 11:47:41 · 834 阅读 · 1 评论
分享