视频动作识别与检测模型的性能比较与创新方法
一、不同模型在不同数据集上的性能对比
1.1 Something V1 & V2 数据集
在 Something V1 和 V2 数据集上,对多种模型的性能进行了统计,包括预训练数据集、分类结果、推理协议、相应的浮点运算次数(FLOPs)和参数数量,具体数据如下表所示:
| Model | Pretrain | Crops × Clips | FLOPs | Params | Sthv1 (Top-1) | Sthv1 (Top-5) | Sthv2 (Top-1) | Sthv2 (Top-5) |
| — | — | — | — | — | — | — | — | — |
| TSM [22] | K400 | 3 × 2 | 65G | 24.3M | – | – | 63.4 | 88.5 |
| TEINet [26] | IN-1K | 1 × 1 | 66G | 30.4M | 49.9 | – | 62.1 | – |
| TEA [20] | IN-1K | 1 × 1 | 70G | 24.3M | 51.9 | 80.3 | – | – |
| TDN [37] | IN-1K | 1 × 1 | 72G | 24.8M | 53.9 | 82.1 | 65.3 | 89.5 |
| ACTION-Net [40] | IN-1K | 1 × 1 | 70G | 28.1M | – | – | 64.0 | 89.3 |
| SlowFast R101, 8x8 [13] | K400 | 3 × 1 | 106G | 53.3M | – |
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



