Vosk可以用于Unity的离线语音识别

Vosk是一个免费且开源的离线语音识别工具,支持多种语言和在Unity中的使用。尽管其识别率尚可,但存在如无法识别特定词汇(如数字12301)和音频文件的问题。初始化和使用Vosk进行语音识别的代码示例给出,同时也提到了一些使用时的注意事项,例如模型目录不能有特殊字符,发布Windows应用时需要拷贝DLL等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Vosk是一个免费,开业,可商用,支持离线语音识别的东西,关键是可以在Unity中使用。
在这里插入图片描述

Vosk可以离线语音识别,也可以自建语音识别服务区,支持多种语言,还支持在Unity中使用。

整体而言,识别率还行,可以发布为windows,应该也能发布为安卓和苹果。性能还行,但是,只支持单一的中文。比如说,无法将12301识别为罗马数字而是识别成幺二三零幺。至于MP3,NBA就更无法识别了。

没找到添加新词的办法,也没找到识别音频文件办法,只能将麦克风录制的语音识别出来。

需要注意的几点

  • 语音模型解压目录不能有特殊字符
  • 第一次运行会闪退,大概是因为解压和目录
  • 发布windows后要复制dll到运行根目录

代码简单说明

初始化语音识别

StartVoskStt();//初始化的方法

开始语音识别

Task.Run(ThreadedWork).ConfigureAwait(false);//开始识别的方法

如果不用官方的麦克风录制,注释掉外面的循环和判断

        //while (_threadedBufferQueue.Count > 0)
        //{
            //if (_threadedBufferQueue.TryDequeue(out short[] voiceResult))
            //{
                _recognizer.AcceptWaveform(voiceResult, voiceResult.Length);
                    lock (_resultLock)
                    {
                        _threadedRecognitionResult = _recognizer.Result();
                    }
            //}
        //}

录制的语音转换大致代码

float[] fdata
_audioClip.GetData(fdata, 0);
......
short[] sdata
for (int i = 0; i < fdata.Length; i++)
{
  sdata[i] = (short)Math.Floor(fdata[i] * short.MaxValue);
}
......
_recognizer.AcceptWaveform(sdata, sdata.Length);
......

演示和视频地址(https://www.bilibili.com/video/BV15Y4y1p7hT/)

Vosk可以在Unity中使用的离线语音识别

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值