Kinect的音频、语音与身体面部追踪技术解析
1. 语音识别技术
语音识别的质量受本地环境、口音和Kinect麦克风阵列完整性的影响。不过,在大多数使用场景中,其识别准确率相当高。例如,在与Kinect玩井字棋的二十多轮游戏里,仅出现过一次命令误识别,当时说的“右下角”被语音引擎识别成了“右上角”。
1.1 不同语音引擎
- Microsoft Speech SDK :适用于短语音命令,但不适合听写。它是基于服务器的语音引擎,适合处理有延迟的电话质量音频。除非所有命令遵循严格模式,否则像战地空袭示例那样的应用可能不太实用。
- System.Speech库 :是一个与Microsoft.Speech表面相似的API。它支持听写,识别效果比Microsoft.Speech更好。然而,它没有Kinect语言包,最终识别效果会受影响。不过,它可以适配Kinect使用,代码与Microsoft.Speech大体相同,但有一些额外类用于处理听写。
1.2 Windows Store应用中的语音识别
之前讨论的代码在Windows Store应用中无法使用,因为Microsoft Speech不可用。微软建议使用Bing Speech API,这是一个付费API,需要有Microsoft Azure账户才能使用。每月可免费调用500,000次,对于个人项目来说还不错。使用Bing Speech API与Kinect时,代码中无需引用Kinect,API会打开默认麦克风进行工作。若需要使用该服务,可查看微软官方教程:
Kinect多模态交互技术解析
超级会员免费看
订阅专栏 解锁全文

15

被折叠的 条评论
为什么被折叠?



