【手势识别-论文学习】 Video-based Hand Manipulation Capture Through Composite Motion Control

原创于 2015-08-18 11:51:59 发布 · 1.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#手势识别 #RGB #model-based

手势识别专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种通过视频序列捕捉手部精细动作并与3D环境中的物体交互的技术。利用多摄像头设置和全局优化方法，实现了手部动作的准确重建，并确保了交互过程的平滑性和真实性。

(SIGGRAPH2013) Video-based Hand Manipulation Capture Through Composite Motion Control

这篇文章是粗读，因为该文是对视频序列的全局优化，所以实时性很差，和我项目相关性小。（后面的重建，优化过程没有细看）

文章概要：

作者希望能捕捉手在和物体交互的时候的精细动作，然后在3D环境中虚拟手和物体的交互。同时因为是对整个视频序列进行模拟，所以希望不要出现“unpleasant visual artifacts such as motion jerkiness, hand-object penetration, and improper interaction between the hand and object.”

因此步骤是：

用scanner扫描建立一个手部3D模型，16个点，28个自由度，然后每一帧都用PD控制模型去计算每一个自由度的角度和速度等。
3D模型运动以后，调整mesh然后在不同角度进行投影，形成多张摄像头视角的图像，这是假设值。
用6个摄像头捕捉实际中的图像（6个...），这是观测值。
目标就是，让观测值和假设值尽可能的匹配：所以需要一个匹配的标准，作者使用了轮廓，颜色，边缘三个标准来计算两者的匹配程度。
在全局（视频序列）上找一个全局最优解。但是因为在所有的帧上找最优解，解空间维度过高，因此作者将手和物体发生了碰撞的时刻作为分割点，这样来降低解空间的维度。

本文的demo视频效果看起来不错。另外比较赞同作者的一些观点：

data-driven的方法始终是找发生过的情况的相似解，不论是generative或者是discriminative的，都很难用于差异性较大的未知情况，比如说手抓不同的物体的方式是不同的，不可能把所有情况都作为样本来训练模型。因此手势识别中模型的加入是很有必要的。
对于纯靠image的appearance的方式的确很难做到很好的稳定和精细，尤其是当只有两个或更少的摄像头时，遮挡问题会很严重，观测值丢失，会导致序列上手会发生jerk等现象。并且，也很难去做从image上去捕捉细微动作。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。