
paper
文章平均质量分 57
平丘月初
这个作者很懒,什么都没留下…
展开
-
top-down HMR translation
HMR是一个简单且广泛使用的top-down方法,用以估计3D人体的pose和shape参数。根据人物检测框,得到一个方形的人物区域裁剪图,resize到224x224分辨率,经过一个卷积encoder提取特征,再经过3次迭代的MLP回归器预测SMPL参数。CLIFF计算的是全图分辨率下的重投影误差,而不是局部crop图。相机沿X和Y轴的平移。所以这里估计的并不是传统意义上的相机内参。沿着X, Y, Z三个轴的平移。r=224代表了resized方形裁切输入的分辨率。太晚了,具体的推导待续。原创 2022-12-09 23:58:54 · 602 阅读 · 1 评论 -
HybrIK流程
T={tk}k=1KT={tk}k=1K:静止姿态下的关节点坐标。R={Rpa(k),k}k=1KR={Rpa(k),k}k=1K:相对旋转。Q={qk}k=1KQ={qk}k=1K:根据输入的相对旋转,FK计算出的关节点坐标。KKK: 关节点数目。pa(k)pa(k)pa(k):第k个节点的父节点。Rpa(原创 2022-11-23 01:36:52 · 907 阅读 · 0 评论 -
Transformer BEV 3D object detection
传统方案:利用2D模型在各自的相机视角获取3D检测结果。再通过后处理算法将各个视角的3D检测框投影到ego frame,融合到一起。原创 2022-10-03 12:03:10 · 741 阅读 · 0 评论 -
Transformer学习
主流的序列转换模型基于复杂的encoder-decoder结构的循环或者卷积神经网络。本文提出一个简单的仅基于注意力机制的网络结构,Transformer。完全摆脱了循环和卷积方式。在两个机器翻译任务上的实验结果表明Transformer的翻译质量更佳,并行度更好,需要更短的训练时长。...原创 2022-08-01 10:14:10 · 95 阅读 · 0 评论 -
Efficient Video Instance Segmentation via Tracklet Query and Proposal
VIS的目标是同时分类,分割,跟踪视频中的多个目标实例。当下clip-level的VIS输入一小段视频,因为利用了多帧的时序上下文信息。效果要明显优于frame-levelVIS。但是目前大多数clip-level方法既不能端到端可学习,也不能实时。VIStransformer解决了上述两个问题,但由于其frame-wise的稠密注意力计算,训练时间太长;而且VisTR对多个视频段无法端到端可学习,需要手动的数据关联,将前后clips周的实例tracklet链接起来。...原创 2022-07-25 19:06:59 · 342 阅读 · 0 评论 -
E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation
不同于先前的contour-based方案,手动构造初始轮廓,E2EC方案采用可学习的轮廓初始化方案,解决人工初始轮廓可能和真实轮廓之间交织过多,导致学习和推理困难的问题。采用globalcontourdeformation,其实就是MLP,更好的利用上所有顶点的特征。提出了labelsamplingscheme,叫做multi-directionalignment,可以降低学习难度。...原创 2022-07-15 16:41:07 · 604 阅读 · 0 评论 -
Deep Snake for Real-Time Instance Segmentation
提出了circularconvolution,相比图卷积,可以更好的学习轮廓的cycle-graph结构。是个二阶实例分割,分为initialcontourproposal和contourdeformation两步,可以处理检测误差。1080Ti上,512x512输入的速度为32.3fps。好奇图像中的实例数对速度没影响么?而且这篇文章提出来的圆环卷积,采用特征选取的方式,导致没法用推理引擎进行加速。......原创 2022-07-15 15:44:58 · 575 阅读 · 0 评论 -
Sparse Instance Activation for Real-Time Instance Segmentation
用实例激活图的稀疏集合,表示一个新目标,来高亮每个前景目标区域。再聚合高亮区域的特征,得到实例级特征,用以分类和分割。基于二分图匹配,实例激活图可以一对一的方式预测目标,因而避免了NMS的后处理。......原创 2022-07-13 20:51:11 · 513 阅读 · 0 评论 -
Weakly supervised Semantic Segmentation by Pixel-to-Prototype Contrast
通过引入cross-view和intra-view的约束,提升类内一致性(intra-class compactness)和类间区分性(inter-class dispersion)。优点就是不会增加推理计算量的情况下,提升(弱)监督场景下的分割效果。我觉得这样的约束,在强监督场景下也可以使用,弥补交叉墒损失的缺陷。..................原创 2022-07-13 19:58:31 · 1050 阅读 · 0 评论