RepNet 论文阅读笔记

最新推荐文章于 2024-08-20 14:16:20 发布

原创

最新推荐文章于 2024-08-20 14:16:20 发布 · 1.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#3d姿态估计 #2d转3d #计算机视觉 #深度学习

论文原文：https://arxiv.org/abs/1407.1239
本文的研究是通过单张RGB图像中的人体2D姿态转换成3D姿态，即作了姿态升维。

总体思路

借鉴了对抗生成网络与传统坐标透视转换的思想，模型分为三部分：

第一部分姿态网络：就是传统做法常用的带残差的全连接神经网络直接通过2d姿态坐标预测3d姿态坐标。
第二部分相机网络：相机的参数由六个坐标决定（选择、缩放），采用与姿态网络相似的网络直接回归出六个坐标。
第二部分批判网络：类似GAN中的对抗网络，学习3D姿态的正常分布情况，迫使姿态网络产生符合常理的3D姿态。

姿态网络通过2d坐标生成3d坐标，相机网络生成相机参数，由相机参数重新将3d坐标投影回2d坐标（Reproject，论文名字由来），通过与原始坐标的损失进行反向传播。间隔一定周期更新批判网络。

姿态网络

使用人体16个关键点的2d坐标作为输入，输入层为<?, 32>，模型由如图所示的带残差的全连接层以及普通全连接层组成，输出层为<?, 48>，代表16个点关键点的3d坐标。这种网络就是传统直接使用深度学习从2d向3d转换的典型网络。模型相当于做了一个从 $\in \mathbb{R}^{2 \times n}$ 到 $\in \mathbb{R}^{3 \times n}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。