【阅读文献笔记】STAR-Transformer: A Spatio-temporal Cross Attention Transformer forHuman Action Recognition

主要工作

在动作识别中,虽然时空视频和骨架特征的结合可以提高识别性能,但需要一个单独的模型和平衡的跨模态数据的特征表示。

跨模态学习:提出了一种将时空视频的跨模态数据和骨架聚合成多类令牌的方法,以解决组合跨模态动作数据的问题。

STAR-Transformer:提出了一个Spatio-TemporAl cRoss (STAR)-Transformer的注意机制, 它可以有效地表示两个交叉模态特征作为一个可识别的向量。

动作识别模型的总体架构

跨模态学习

首先提出了一种跨模态学习方法,可以结合视频帧和骨架特征。16个视频帧和相应的骨架序列作为输入,每个帧都被馈送到ResNet MC 18,并从中间层和最后一层提取两个特征图。由于中间层的特征图包含比最后一层更详细的局部特征,因此它与联合热图组合用于联合地

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值