视频分类器学会识别从未见过的动作
零样本学习是一种训练深度学习模型泛化到未见类别的方法。典型做法是让模型学习将输入(如视频)映射到语义空间,其中词语根据含义进行聚类。如果一切顺利,模型可以通过将视频映射到语义空间并选择最接近的词语,对训练时未接触过的视频进行分类。该技术在训练时无法获得特定关注类别的情况下具有巨大潜力。
端到端训练的革命性突破
零样本图像识别研究通过端到端训练取得重大成功,即使用单一深度学习模型直接将原始输入映射到输出。但据我们所知,这种方法从未应用于相关的视频分类问题。
传统的零样本视频分类器通常从标准视频分类器(仅能识别有限动作)开始,将其输出通过多个专用子网络映射到语义空间。这被视为对视频处理计算复杂性的必要妥协。
在IEEE计算机视觉与模式识别会议上发表的研究中,我们将端到端训练应用于零样本视频分类问题,发现其性能大幅超越先前方法。
与相同容量和深度的前代模型相比,在约50万个训练样本下,我们的方法将最佳性能前代模型的错误率降低了29%。
创新的评估方法
在模型评估中,我们采用新的数据划分方法,更好地近似真实场景。传统做法简单将单一数据集分为训练集和测试集,而我们使用不同数据集进行训练和测试。
首先计算训练集类别与测试集最近邻在语义空间中的距离,然后丢弃所有距离低于特定阈值的训练集类别。距离阈值0.05可移除近40个训练类别。
技术优势与影响
我们的端到端模型比性能最佳的前代模型更简单,因此更易于复现。创建强大且易于复现的基线是我们的研究关键:目标不仅是开发新模型,还要促进其他研究团队的后续工作,加速技术进步。
该方法源自对现有零样本视频分类方法的重新思考。传统方法优先处理长输入视频的能力,因此需要使用预训练分类器和专用模块来降低计算复杂度。而传统视频分类中最成功的方法(非零样本系统)恰恰相反,提取输入视频的小快照同时端到端训练完整网络。
我们希望这项贡献能激励其他研究团队推动零样本视频分类的边界,并期待该技术尽快应用于商业产品。
研究领域:计算机视觉、机器学习
技术标签:人工智能、视频分类、动作识别、零样本学习、CVPR
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

1233

被折叠的 条评论
为什么被折叠?



