10、Kinect的音频、语音与身体面部追踪技术解析

Kinect多模态交互技术解析

Kinect的音频、语音与身体面部追踪技术解析

1. 语音识别技术

语音识别的质量受本地环境、口音和Kinect麦克风阵列完整性的影响。不过,在大多数使用场景中,其识别准确率相当高。例如,在与Kinect玩井字棋的二十多轮游戏里,仅出现过一次命令误识别,当时说的“右下角”被语音引擎识别成了“右上角”。

1.1 不同语音引擎
  • Microsoft Speech SDK :适用于短语音命令,但不适合听写。它是基于服务器的语音引擎,适合处理有延迟的电话质量音频。除非所有命令遵循严格模式,否则像战地空袭示例那样的应用可能不太实用。
  • System.Speech库 :是一个与Microsoft.Speech表面相似的API。它支持听写,识别效果比Microsoft.Speech更好。然而,它没有Kinect语言包,最终识别效果会受影响。不过,它可以适配Kinect使用,代码与Microsoft.Speech大体相同,但有一些额外类用于处理听写。
1.2 Windows Store应用中的语音识别

之前讨论的代码在Windows Store应用中无法使用,因为Microsoft Speech不可用。微软建议使用Bing Speech API,这是一个付费API,需要有Microsoft Azure账户才能使用。每月可免费调用500,000次,对于个人项目来说还不错。使用Bing Speech API与Kinect时,代码中无需引用Kinect,API会打开默认麦克风进行工作。若需要使用该服务,可查看微软官方教程:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值