零样本视频分类的端到端训练突破

视频分类器学会识别从未见过的动作

零样本学习是一种训练深度学习模型泛化到未见类别的方法。典型做法是让模型学习将输入(如视频)映射到语义空间,其中词语根据含义进行聚类。如果一切顺利,模型可以通过将视频映射到语义空间并选择最接近的词语,对训练时未接触过的视频进行分类。该技术在训练时无法获得特定关注类别的情况下具有巨大潜力。

端到端训练的革命性突破

零样本图像识别研究通过端到端训练取得重大成功,即使用单一深度学习模型直接将原始输入映射到输出。但据我们所知,这种方法从未应用于相关的视频分类问题。

传统的零样本视频分类器通常从标准视频分类器(仅能识别有限动作)开始,将其输出通过多个专用子网络映射到语义空间。这被视为对视频处理计算复杂性的必要妥协。

在IEEE计算机视觉与模式识别会议上发表的研究中,我们将端到端训练应用于零样本视频分类问题,发现其性能大幅超越先前方法。

与相同容量和深度的前代模型相比,在约50万个训练样本下,我们的方法将最佳性能前代模型的错误率降低了29%。

创新的评估方法

在模型评估中,我们采用新的数据划分方法,更好地近似真实场景。传统做法简单将单一数据集分为训练集和测试集,而我们使用不同数据集进行训练和测试。

首先计算训练集类别与测试集最近邻在语义空间中的距离,然后丢弃所有距离低于特定阈值的训练集类别。距离阈值0.05可移除近40个训练类别。

技术优势与影响

我们的端到端模型比性能最佳的前代模型更简单,因此更易于复现。创建强大且易于复现的基线是我们的研究关键:目标不仅是开发新模型,还要促进其他研究团队的后续工作,加速技术进步。

该方法源自对现有零样本视频分类方法的重新思考。传统方法优先处理长输入视频的能力,因此需要使用预训练分类器和专用模块来降低计算复杂度。而传统视频分类中最成功的方法(非零样本系统)恰恰相反,提取输入视频的小快照同时端到端训练完整网络。

我们希望这项贡献能激励其他研究团队推动零样本视频分类的边界,并期待该技术尽快应用于商业产品。

研究领域:计算机视觉、机器学习

技术标签:人工智能、视频分类、动作识别、零样本学习、CVPR
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值