《残疾人手语交流辅助系统手语识别与翻译》
【本来以为这是一篇学位论文,没想到是比赛的“感言”,不过比赛有一个地方很好,什么最好用、最简单用什么,而是一大堆为写论文而进行研究的东西,各种先进算法交杂在一起】
1、 特征提取
原始数据含有背景等大量无用成分,通过骨架技术,直接获得手的运动信息,减小问题复杂度。硬件和软件使用的是:Kinect和OpenNI。Kinect可以获得深度图像,OpenNI不太了解,查了下,【百度百科】例如,一个中间件可以接收一副有人的图像,计算并返回人手掌在图像中的位置。OpenNI提供了一组基于传感器设备的API,以及一组由中间件组件实现的API。通过打破传感器和中间件之间的依赖,使用OpenNI的API编写应用程序就不需要额外的努力去处理由不同的中间件共存带来的问题(跨平台)。在本论文的后边描述,可以知道调用了《骨骼提取》算法,这是个不开源的【知乎】OpenNi类似Kinect的SDK,但是里面的很多算法不是开源的,比如实时的human poseestimation, hand tracking。这些算法来自一个叫primesense的公司的middleware,估计也是微软持资,openni只有接口。后期,骨骼提取技术因为处理速度慢,是整个系统的瓶颈,因为不开源的原因无法处理,因此添加了FPGA,【百度百科】系统设计师可以根据需要通过可编辑的连接把FPGA内部的逻辑块连接起来,就好像一个电路试验板被放在了一个芯片里。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者而改变,所以FPGA可以完成所需要的逻辑功能。简而言之,就是一个有专门用途的芯片。
选择左右手、肘关节、肩关节6个骨架节点,在获得骨架节点后,通过常态化处理,使得每个动作延续121帧,原因是,标准化便于后期处理,方式是,均匀分配和插值处理。
2、 数据处理