FastHand

FastHand: Fast Hand Pose Estimation From A Monocular Camera

论文地址

数据集

DatasetUsageDesimage resolutionJointsImages
Yotube2DTrainingReal-world256 × 2562147125
GANeratedHandsTrainingSynthetic256 × 25621141449
STBTestReal-world640 × 480216000
RHDTestSynthetic320 × 320212727
  • 网络部分

Top-to-Down方式,先用mobilenetv2-SSD检测,之后使用指数平均进行跟踪,最后使用heatmap估计函数进行姿态估计

网络部分未用特殊操作,上图 \((b)\) 下采样直接使用并行的conv+pooling(在所有阶段使用),上图 \((c)\) 上采样直接resize(等于双线性插值,在encoder部分使用),decoder部分的上采样使用三次deconvolution

  • 跟踪部分

滑动平均的方式改成指数平均

\[P_{cur} = \sum_{k=0}^{n}{P_{k} \times \frac{e^{-k}}{\sum_{j=0}^{n}{e^{-j}}}} \]

\(P_{k}\) 当前bbox的位置,这里怎么编码怎么来(\(c_x\ c_y\ w\ h\)\(\ x_{min}\ y_{min}\ x_{max}\ y_{max}\)),\(n\) 表示加权平均的数量。

  • 比较结果

不清楚作者有没有把 \(NSRM-Net\) 等网络使用youtube2D+GANeratedHands进行训练,如果直接按照原始论文进行比较结果无意义,公认的STB数据集太简单很容易过拟合,RHD数据集和实际数据差别有点大,Onehand数据数量较少(实际使用有点不干净)。

  • 个人观点
  • [x] 当前关键点估计网络基本都会使用hourglass结构
  • [x] 按照下图划分,其实作者就是使用了两层hourglass
  • [x] 关于作者给出的上\下采用具体有没有效果,论文未给数据对比。

    • 比如yolov5使用的focus结构下采样
    • 比如pixelshuffle的上采样
    • 等等
  • [x] 作者说思路和media-pipe比较类似,个人感觉google的创新主要在于使用heatmap进行弱监督

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值