【论文随笔2】COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations

提出COALA方法,利用对比损失将音频表示与标签对齐,学习语义丰富的音频特征。适用于声音事件识别等多个任务。

原文链接:【论文随笔2】COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations - 知乎零----相关背景Contrastive loss(对比损失)Contrastive loss的目标是:同类相吸,异类相斥。 本文提到的Contrastive loss又叫“ NT-Xent loss” (Normalized Temperature-Scaled Cross-Entropy Loss),源于SimCL…https://zhuanlan.zhihu.com/p/373406425

零----相关背景

Contrastive loss(对比损失)

Contrastive loss的目标是:同类相吸,异类相斥。

本文提到的Contrastive loss又叫“NT-Xent loss” (Normalized Temperature-Scaled Cross-Entropy Loss),源于SimCLR。计算示例如下【1】:

首先,拿出同一批训练样本中的每一对:

图 1

然后,使用  函数来得到两张图片相似的概率:

图 2

 输出的概率值作为pair1中,第二张猫的照片与第一张猫的照片相似的概率。因此,这一batch中所有剩下的图片,都会被当作不相似图片(负对)进行采样。

图 3:softmax 输出的结果。

图 2 中的 similarity 的具体算法为:

图 4:similarity 的计算方式,其中 z 是模型学习到的隐藏层向量。

其中, 是可调温度参数,可缩放余弦相似度的范围到 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值