- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 06+ER-NeRF论文笔记
大量的实验表明,与以往的方法相比,我们的方法可以呈现出更好的高保真度和音频-嘴唇同步的谈话人像视频,细节逼真,效率高。(2)由于不同的面部区域与语音音频的关联不同[24],不同的空间区域以其独特的方式与音频信号内在关联,并导致独特的音频驱动局部运动。受这些观察结果的启发,我们明确利用空间区域的不平等贡献来指导说话人像建模,并提出了一种新的高效区域感知说话人像NeRF (ER-NeRF)框架,用于真实高效的说话人像合成,该框架以小模型尺寸实现了高质量的渲染、快速收敛和实时推理。不同的是,眨眼的区域注意向量。
2024-05-15 14:19:44
1002
1
原创 04+RAD-NeRF的论文笔记
在本文中,我们提出了一个基于 NeRF 的高效框架,该框架通过利用基于网格的 NeRF 的最新成功实现了talking head的实时合成和更快的收敛。我们观察到,对于说话头来说,变化的音频条件引起的占用变化通常很小,可以忽略不计。在之前的方案中,通常将音频转化为高维特征然后和空间特征进行拼接,然而,线性插值的复杂性随着输入维数的增加呈指数增长。由于变形场的内在连续性,基于变形的方法不擅长建模拓扑变化(如张嘴和闭口),我们选择基于调制的策略来建模头部部分,而基于变形的策略来建模躯干部分,运动模式更简单。
2024-05-15 13:52:36
1096
1
原创 设计一个分数时延滤波器(matlab教程翻译+Python代码实现)
(译者理解:如果截取【-2:3】,则-2、-1位置需要使用滤波卷积后数据,即滤波器的输出被送入输入,非因果索引。在实际应用及计算处理中,通常需要将理想滤波器在一个有限索引窗口内进行截断,尽管这可能导致一定程度的带宽损耗。对于特定的分数延迟FD,可通过求解一系列线性方程组来确定经因果移位后的拉格朗日型延迟滤波器的FIR系数。是未知数,K是滤波器的阶数,(FD)是分数延迟量,n是滤波器系数的指数,h[n]是滤波器的系数。为中心对称,并能够覆盖理想滤波器的主要通带。,该方程组刻画了标准的拉格朗日多项式拟合问题。
2024-01-25 11:14:44
3799
2
原创 说话人验证中的得分归一化(score-normlization)
在实际的说话人验证任务中,注册语音和测试语音之间的得分受到其之间的环境差别影响,为了更好的确定阈值。对于得分进行规整非常的有效。为什么需要说话人得分归一化?不同的说话人直接的得分分布存在差异。相同的说话人得分也会有较大差异,尤其在语义内容不同,信道差异,各种环境噪声的情况下。下面我们将简要介绍四种得分归一化方法(Z-norm,T-norm,S-norm,AS-norm)。首先我们假设注册语音的embedding为eee,测试语音的embedding为ttt,s(e,t)s(e,t)s(e,t)表
2021-04-08 11:30:32
6785
2
原创 使用kaldi中的x-vector在aishell数据库上建立说话人识别系统
使用kaldi中的x-vector在aishell数据库上建立说话人识别系统写在前面整个系统可以分为三个部分,第一,前端预处理部分,主要包括mfcc特征提取,VAD,数据扩充(增加混响、增加不同类型的噪声)等;第二,基于TDNN的特征提取器,该结构生成说话人表征,说话人表征也可以被称为embedding、x-vector;第三,后端处理,对于说话人表征,采用LDA进行降维并训练PLDA模型对测试对进行打分。x-vector的论文发表在ICASSP 2018,kaldi的核心开发者Daniel Pove
2020-11-04 15:00:30
3624
6
原创 label smooth的pytorch实现以及其公式推导(虽然短但是细)
标签平滑:label smooth目的为了解决onehot编码的缺陷,(过拟合问题)假设: 预测的结果为 ypredy_{pred}ypred, 真实结果为ytruey_{true}ytrue,类别数量为NNN标签平滑即在ytruey_{true}ytrue的one-hot编码中进行处理。ynewtrue=(1−ϵ)∗ytrue+ϵ/N{1,0,0}=>{ϵ=0.1}=>{0.933,0.033,0.033}{0,1,0}=>{ϵ=0.5}=>{0.16,0.66,0.
2020-09-10 10:40:44
2543
4
最新的eclipse,搬运,,
2017-09-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人