Questions & Answers:
Question in first time read:
Abstract:
1、什么是时间戳?
【A:video中的一个frame】
2、如何利用采样分布对时间戳进行初始化?
【A:根据采样分布的pdf设置一个threshold,当某一段连续的frame对应的probability超过threshold的时候,则选取该帧】
3、如何利用分类器的反馈对采样分布进行更新?
【A:根据softmax中class-k的probability distribution来获得对应的连续帧,然后利用pdf去拟合该部分的连续帧,通过w、c和s三个参数去拟合,得到一组新的w,s,c就是一组更新建议】
4、为什么BEOID数据集上基于时间戳的标注效果(TS in GT)有可能会比基于时序的标注的效果更好?
【A:因为基于时序的标注是由人工进行标注的,难免会引入一个随机性的因素,比如比较的某一帧是否属于该action可能会存在模棱两可的情况】
5、采用了什么样的基准数据集?一段视频里面如果存在多个action,那么就是一个多标签的分类问题?那么采用什么样的评价指标?
【论文中根据每个视频中action的数量依次递增,采用3个不同的数据集,论文中采用top-1评价指标】
Introduce:
1.时间戳是带有位置信息的?
【A:yes,时间戳一般要求要落在对应action bound的区间里面】
2.video-level supervision
【A:对于一个视频,只告诉你一个视频中具有哪些action,action list不具有顺序】
3
3.1 Sampling Distribution
采样分布的可微性质如何进行验证以及,采样分布也是通过BP进行参数的更新?
如何对softmax的分布k-class进行拟合?
①首先确定center parameter ccc.
②随后根据width2\frac{width}{2}2width得到对应的www.
③最后可以将某一个点的值带进去求出steepness的大小.
3.3 Updating the Distribution Parameters
如何根据softmax的分布设置阈值对高原函数进行拟合?
【A:首先对于每一个update proposal都会有一个confidence,对每个date proposal根据confidence进行排序,取前面的top-k组update proposal对其对应的sample distribution进行更新。】
4
4.2 Implementation detail
1.TV-L1 optical flow, stack size 指的是什么?
2.王利民老师的那篇论文里面的snippet具体指的是什么?
==============================
Innovaction of this paper:
划定每个动作的帧范围并进行类别标记的成本十分昂贵,而且存在人工引入的模棱两可的随机性因素。受到了语义分割任务中单点标注的启发,对于每一段视频只需要标注一个timestamp即可,而不进行frame-wise的标注。
三种水平的标注任务:
Video-level supervision:
只知道某个动作在视频里面出现过还是没有出现过【适用于action较少的情况】
Transcript supervision:
提供了一个有序的动作列表,但不包含逐帧的时序信息,在列表中插入背景,用于表示两个action是相连还是间隔的关系【利用边界帧两两对比的softmax分数对边界进行改善】
Point-level supervision:
只对视频中一个确切的时间点的帧进行标记
论文中的方法:只对视频中一个时间点的帧进行标记,这个点不一定要非常的精确,它可以自主地进行调整,细化和改善。
对于密度函数重叠的问题不进行解决,目的是为了初始每一个PDF的时候使得每一类别都有固定的参数和相同的帧数,至于后期如何分布如何进行更新,则尤其自行学习
Need to be solved:
4.2 Implementation detail
1.TV-L1 optical flow, stack size 指的是什么?
2.王利民老师的那篇论文里面的snippet具体指的是什么?