零样本视频分类的端到端训练突破

最新推荐文章于 2025-12-20 19:12:45 发布

原创最新推荐文章于 2025-12-20 19:12:45 发布 · 331 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#计算机视觉 #零样本学习 #视频分类 #程序那些事 #AIGC #人工智能 #马尔可夫决策过程

视频分类器学会识别从未见过的动作

零样本学习是一种训练深度学习模型泛化到未见类别的方法。典型做法是让模型学习将输入（如视频）映射到语义空间，其中词语根据含义进行聚类。如果一切顺利，模型可以通过将视频映射到语义空间并选择最接近的词语，对训练时未接触过的视频进行分类。该技术在训练时无法获得特定关注类别的情况下具有巨大潜力。

端到端训练的革命性突破

零样本图像识别研究通过端到端训练取得重大成功，即使用单一深度学习模型直接将原始输入映射到输出。但据我们所知，这种方法从未应用于相关的视频分类问题。

传统的零样本视频分类器通常从标准视频分类器（仅能识别有限动作）开始，将其输出通过多个专用子网络映射到语义空间。这被视为对视频处理计算复杂性的必要妥协。

在IEEE计算机视觉与模式识别会议上发表的研究中，我们将端到端训练应用于零样本视频分类问题，发现其性能大幅超越先前方法。

与相同容量和深度的前代模型相比，在约50万个训练样本下，我们的方法将最佳性能前代模型的错误率降低了29%。

创新的评估方法

在模型评估中，我们采用新的数据划分方法，更好地近似真实场景。传统做法简单将单一数据集分为训练集和测试集，而我们使用不同数据集进行训练和测试。

首先计算训练集类别与测试集最近邻在语义空间中的距离，然后丢弃所有距离低于特定阈值的训练集类别。距离阈值0.05可移除近40个训练类别。

技术优势与影响

我们的端到端模型比性能最佳的前代模型更简单，因此更易于复现。创建强大且易于复现的基线是我们的研究关键：目标不仅是开发新模型，还要促进其他研究团队的后续工作，加速技术进步。

该方法源自对现有零样本视频分类方法的重新思考。传统方法优先处理长输入视频的能力，因此需要使用预训练分类器和专用模块来降低计算复杂度。而传统视频分类中最成功的方法（非零样本系统）恰恰相反，提取输入视频的小快照同时端到端训练完整网络。

我们希望这项贡献能激励其他研究团队推动零样本视频分类的边界，并期待该技术尽快应用于商业产品。

研究领域：计算机视觉、机器学习

技术标签：人工智能、视频分类、动作识别、零样本学习、CVPR
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。