- 博客(5)
- 收藏
- 关注
原创 【论文精读】ASRF Alleviating Over-segmentation Errors by Detecting Action Boundaries
我们提出了一个有效的时间动作分割框架,即动作分割细化框架(ASRF)。模型架构由一个长期特征提取器和两个分支组成:动作分割分支(ASB)和边界回归分支(BRB)。长期特征提取器提供了两个分支的共享特征,具有广泛的时间感受场。ASB用动作类别对视频帧进行分类,而BRB回归动作边界概率。BRB预测的动作边界细化了ASB的输出,这导致了显著的性能提高。(i)我们提出了一个用于时间动作分割的框架ASRF,它将时间动作分割分为逐帧动作分类和动作边界回归。我们的框架使用预测的动作边界改进了动作类别的帧级假设。
2024-04-08 19:39:16
994
原创 【论文精读】SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase Recognition
Purpose:手术相位自动识别是支持基于视频评估(VBA)系统进行外科教育的关键技术之一。利用时间信息对手术相位识别至关重要,因此最近的各种方法提取帧级特征来进行全视频时间建模。SF-TMN不仅可以实现帧级全视频时间建模,还可以实现段级全视频时间建模。
2024-04-02 16:30:46
2173
2
原创 【论文精读】LTC & AdaFoucs
对视频中的长期上下文进行建模对于包括时间动作分割在内的许多细粒度任务至关重要。因此,最近关于时间动作分割的工作将时间卷积网络与仅针对局部时间窗口计算的自我注意相结合。本文引入基于transformer的模型解决长时序建模问题,利用稀疏注意力(sparse att)捕获视频完整上下文。
2024-03-14 14:34:55
1913
1
原创 【论文精读】ASFormer & DXFormer
AS任务通常使用时序模型预测分钟级视频每一帧的动作,最近的研究表明Transformer在建模序列任务上的潜力,但是直接将transformer应用在AS任务上存在重要问题:1.在小训练集上存在归纳偏差 2.处理长输入序列 3.decoder之间的局限 ,对此提出ASFormer,特征表现在(i)由于特征的高度局部性,引入局部连通性先验,将假设空间限制在一个固定范围内 (ii)用预定义的分层表示,有效处理长输入序列 (iii)设计decoder来细化encoder的初始预测。
2024-03-09 14:18:55
1138
原创 【论文精读】BIT: Bi-Level Temporal Modeling for Efficient Supervised Action Segmentation
解决全监督动作分割任务,任务旨在-将视频分割成不重叠的片段,每个片段表示不同动作。最近的工作应用transformer在帧级别执行时间建模,这存在高计算成本,并且不能很好地捕捉长时间范围内的动作依赖性。为了解决这些问题,我们提出了一种高效的BI级时间建模(BIT)框架,该框架学习明确的动作标记来表示动作片段,并行地在帧和动作级别上执行时间建模,同时保持较低的计算成本。本模型包括:i frame branch – 使用卷积学习帧级关系的帧分支。
2024-01-21 22:34:35
1882
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅