语音识别
文章平均质量分 91
语音识别
shadowismine
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TDNN方法学习
输入:每个特征图表示一帧,特征图的通道数为24,表示一帧的特征数(原文是24维fbank特征),特征图的分辨率是1,在这里需要明确:语音是1维数据,因此特征图并不是二维图,而是一个值,24个特征图堆叠起来构成24维fbank特征。其中,dilation=1表示标准卷积,frame2的膨胀卷积需要设置dilation=2。x-vector的网络结构。原创 2023-10-12 08:46:45 · 664 阅读 · 0 评论 -
Wespeaker框架训练(2)
数据集处理完毕后开始训练,主要是调用wespeaker/bin/train.py 函数在train.py中输入参数:包括conf\config.yaml文件,也可以是外部设定的参数内容(如run.sh中定义外部参数config = conf/campplus.yaml)campplus.yaml文件中又对训练epoch,间隔,保存记录,输出路径等参数进行了设定。具体后续对模型训练参数修改就在具体的模型.yaml文件中进行设定。临时的修改可以在run.sh中进行修改。原创 2023-09-26 14:00:45 · 683 阅读 · 0 评论 -
声纹识别与声源定位(二)
声源定位原创 2023-01-11 21:36:22 · 9748 阅读 · 2 评论 -
Wespeaker框架训练(1)
进入wespeaker目录文件/home/username/wespeaker/examples/voxceleb/v2对run.sh文件进行编辑vim run.sh可以看到run.sh里面的配置内容在运行run.sh 时的起始stage 和结束stage,默认两个都设置为-1raw 格式的音频未经过分片、拆分,就是原本下载解压后的文件,训练时只能逐个读取音频,适用于数据集较小时;原创 2023-09-25 22:10:50 · 1407 阅读 · 1 评论 -
An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification
论文题目:An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification论文单位:阿里巴巴集团,中国科学技术大学核心内容:有效融合多尺度特征对于提高说话人识别性能至关重要。现有的大多数方法通过简单的操作,如特征求和或拼接,并采用逐层聚合的方式获取多尺度特征。本文提出了一种新的架构,称为增强式Res2Net(ERes2Net),通过局部和全局特征融合提高说话人识别性能。原创 2023-10-24 17:55:48 · 1230 阅读 · 0 评论 -
RawNet 1-3 介绍
出自会议:INTERSPEECH 2019.代码:https://github.com/Jungjee/RawNet.)) 出自会议:INTERSPEECH 2020.代码:vailable at https://github. com/Jungjee/RawNet.)) 出自会议:INTERSPEECH 2022.代码:https://github.com/Jungjee/ RawNet and https://github.com/clovaai/voxceleb_ trainer.)原创 2023-10-26 15:45:22 · 2364 阅读 · 0 评论 -
Fbank及MFCC学习
Fbank:FilterBank:人耳对声音频谱的响应是非线性的,Fbank就是一种前端处理算法,以类似于人耳的方式对音频进行处理,可以提高语音识别的性能。获得语音信号的fbank特征的一般步骤是:预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值等。对fbank做离散余弦变换(DCT)即可获得mfcc特征。MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。原创 2023-10-12 08:44:45 · 2328 阅读 · 0 评论 -
论文阅读:ECAPA-TDNN
TDNN本质上是1维卷积,而且常常是1维膨胀卷积,这样的一种结构非常注重context,也就是上下文信息,具体而言,是在frame-level的变换中,更多地利用相邻frame的信息,甚至跳过t − 1 , t + 1 的frame,而去对t − 2 , t + 2 的frame进行连接在ECAPA-TDNN中,更是进一步利用了膨胀卷积,出现了 dilation=2,3,4的情况。此外,还引入了Res2Net,从而获得了多尺度的context,所谓多尺度,指的是各种大小的感受野代码实现。原创 2023-10-13 20:30:45 · 3910 阅读 · 0 评论 -
MFA-Conformer
本文由清华大学与腾讯科技(北京)有限公司、台湾大学及香港中文大学合作。提出了一种基于Conformer的多尺度特征融合的说话人识别模型(MFA-Conformer),通过融合各层不同尺度的特征,增强说话人特征的表征能力。实验表明,与目前主流的声纹识别网络ECAPA-TDNN相比,本文所提出的MFA-Conformer在识别性能和推理速度上都有大幅提升。该工作在腾讯科技有限公司的合作业务部门落地上线,新模型上线后实现了业务准确率20-40个点的巨大提升节省线上服务资源30%。原创 2023-10-27 16:52:01 · 847 阅读 · 0 评论 -
ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention
论文单位:阿里巴巴集团,南洋理工大学核心内容:ACA-Net是一种轻量级的基于全局上下文感知信息和说话人特征的说话人辨识模型。ACA-Net利用非对称交叉注意力机制 (Asymmetric Cross Attention,即 ACA) 来代替常用的时间池化层,模型示意图见下图。ACA能够通过对key和value 大矩阵进行快速查询,将可变长度序列提取为较小的固定大小的隐层序列。原创 2023-10-25 22:02:41 · 259 阅读 · 0 评论 -
声纹识别与声源定位(一)
声纹识别及算法原创 2023-01-11 21:35:39 · 4488 阅读 · 0 评论
分享