Speech Recognition with Multi-Task论文精读系列(一)多任务VS对抗学习

本文探讨了在语音识别中,多任务学习(MTL)与对抗学习(AL)如何通过利用额外的speaker信息来提高模型准确性。MTL通过附加的speaker分类任务增强模型鲁棒性,而AL旨在学习与speaker无关的语音特征以消除噪声和口音影响。实验表明,对抗学习在speaker分类准确率和语音识别性能上展现出更好的收敛效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Multi-Task VS Adversarial Learning: To Reverse the Gradient or Not an Empirical Comparison of Adversarial and Multi-task Learning in Speech Recognition

前言

从今天开始要持续更新一个新的系列了——多任务学习在语音识别中的应用。唉,说起来都是泪,多模态学习还没搞出啥名堂,又要搞一个新的领域。不过也是事出有因,实验室老师在筹划写一本多任务学习的书,就给我们每一个人分配了一个章节。我大概要在两个月之内看完60+文章,而且是精读,需要把每一篇文章的主要内容、损失函数、网络架构都弄清楚,看完以后整理成一篇survey的文章,可能会试着投一下会议,最后会把survey的内容精简之后一个章节加入到书里面。任重道远~~

关于文章和作者

Yossi Adi, Neil Zeghidour, Ronan Collobert, Nicolas Usunier, Vitaliy Liptchinsky, Gabriel Synnaeve
(好像所有人都不认识的。。。)

主要内容

在语音识别的数据集中,除了语音数据意外,还有speaker的一些id信息,可以考虑借助识别speaker,帮助提升语音识别的准确度。本文想比较的两种方法是:multitask和adversarial learning。

multitask方法的思路是,在主线任务之外,添加一个支线任务,实现speaker的识别和分类,从而提升模型的鲁棒性。

Adversarial learning是基于语音本身的特征是独立的,与speaker的类别、accent、噪声等都无关,所以想让模型学习到一个invariant的表示。它的一个分支speaker分类任务就是训练后降低loss,主干任务是最大化speaker分类器的loss,这样学习到的语音特征对于speaker而言就是独立不变的,用这种方法还可以消除噪声、口音等对语音识别的影响。

介于这两种方法的思想都是一样的,结构上也有一定的相似性,作者想系统化对比这两种方法,在相同的实验条件下,哪个方法更适合。

模型结构、Loss函数

Adversarial Learning

前K层作为encoder,编码语音特征到低维的向量R,然后把R向量作为输入到decoder1,得到characters的后验概率,同时还有另外一个decoder2,得到speaker的后验概率,两个decoder都是以R作为输入。为了使学习到的representation与speaker无关,调节encoder的参数,使得speaker分类器的loss最大,同时调节decoder2的参数最小化speaker分类器的loss,从而实现对抗学习的效果。
ℓ ( θ r , θ y , θ s ) = ℓ a c o u s t i c ( θ r , θ y ) − λ ℓ s p e a k e r ( θ r , θ s ) \ell(\theta_r,\theta_y,\theta_s) = \ell_{acoustic}(\theta_r,\theta_y) - \lambda\ell_{speaker}(\theta_r, \theta_s) (θr

几篇CVPR关于multi-task论文笔记整理,包括 多任务课程学习Curriculum Learning of Multiple Tasks 1 --------------^CVPR2015/CVPR2016v--------------- 5 二、 词典对分类器驱动卷积神经网络进行对象检测Dictionary Pair Classifier Driven Convolutional Neural Networks for Object Detection 5 三、 用于同时检测和分割的多尺度贴片聚合(MPA)* Multi-scale Patch Aggregation (MPA) for Simultaneous Detection and Segmentation ∗ 7 四、 通过多任务网络级联实现感知语义分割Instance-aware Semantic Segmentation via Multi-task Network Cascades 10 五、 十字绣网络多任务学习Cross-stitch Networks for Multi-task Learning 15 --------------^CVPR2016/CVPR2017v--------------- 23 六、 多任务相关粒子滤波器用于鲁棒物体跟踪Multi-Task Correlation Particle Filter for Robust Object Tracking 23 七、 多任务网络中的全自适应特征共享与人物属性分类中的应用Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification 28 八、 超越triplet loss:个深层次的四重网络,用于人员重新识别Beyond triplet loss: a deep quadruplet network for person re-identification 33 九、 弱监督级联卷积网络Weakly Supervised Cascaded Convolutional Networks 38 十、 从单图像深度联合雨水检测和去除Deep Joint Rain Detection and Removal from a Single Image 43 十、 什么可以帮助行人检测?What Can Help Pedestrian Detection? (将额外的特征聚合到基于CNN的行人检测框架) 46 十二、 人员搜索的联合检测和识别特征学习Joint Detection and Identification Feature Learning for Person Search 50 十三、 UberNet:使用多种数据集和有限内存训练用于低,中,高级视觉的通用卷积神经网络UberNet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision using Diverse Datasets and Limited Memory 62 共13篇,希望能够帮助到大家
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值