FACT: Frame-Action Cross-Attention Temporal Modeling for Efficient Action Segmentation

Frame-Action Cross-Attention Temporal Modeling for Efficient Action Segmentation

1.介绍

监督动作分割,是将一个长的未裁剪的视频分割成几个片段,并将每个片段分配动作类别。
在这里插入图片描述
以往的工作: (a)图是直接用时间卷积或transformer来处理具有时序性质的视频帧图像,但它们在处理长视频时有一个固有的缺点,即模型必须从数万帧中推断出动作关系。最近的工作使用了transformer而不是时间卷积来提高分割性能,这在效率上有很大的牺牲。即模型不能很好的预测出分段结果的同时预测出分段的类别。因此,后面开发了如(b)图所示的两阶段法,第一阶段使用初步的动作分割模型,例如基于 dilated temporal convolutions 或 transformers 的模型,学习初始帧特征并接预测头进行初始预测,第二阶段将初始帧特征作为输入,并使用更复杂的模型进行动作特征提取和细化并进行输出细化后的预测。但也存在问题,第二阶段的输入完全来自于第一阶段的输出,二者时间没有交互关系,而是直接的递进关系,因此如图©所示,让动作类别的预测与逐帧预测并行工作,二者之间存在交互。

2.贡献

(1) 我们提出了一个有效的框架-动作交叉注意时态建模(FACT)框架,该框架并行地执行具有框架和动作特征的时态建模,并利用这种并行性来实现特征之间的迭代双向信息传输并对其进行细化。FACT网络包含(i)用于学习具有卷积和帧特征的帧级信息的帧分支,(ii)用于学习具有变换器和动作令牌的动作级依赖性的动作分支,以及(iii)用于

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值