- 博客(1)
- 收藏
- 关注
原创 论文笔记《End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames》
(c)基于DETR的方法,将transformer引入TAD,将TAD任务当作端到端的任务,将输入视频序列送入预训练的网络(如TSM,SlowFast)提取时间序列特征;(1)我们发现基于特征的方法中,常用的片段表示(snippet representation)是过度冗余的。,在微调时只改变一部分参数。例如,在Ego 4D-MQ数据集上,我们使用了7200帧的VideoMAE-L,每个视频的成本为60 GB。(1)基于特征的方法,其特征提取骨干网,往往在预训练阶段就优化好了,在下游任务中是冻结的;
2025-01-11 20:18:07
656
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人