基于avconv转码工具的微信小程序语音识别功能实现~

本文介绍了一款基于微信小程序的垃圾分类语音识别应用开发过程。详细讲述了如何解决微信小程序录音格式与腾讯AI平台支持格式不符的问题,并通过代码示例展示了从前端录音到后端音频格式转换及语音识别的具体实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在做基于微信小程序【垃圾分类引导指南】的语音识别功能模块时,遇到了一个比较头疼得事情,由于腾讯AI开放平台的接口只支持PCM、WAV、AMR和SILK四种音频格式,而微信小程序录音的音频文件是mp3格式的(此处就是踩得第一大坑了,刚开始看到开发文档是的时候心里还暗喜了一波,因为微信小程序录音文件就可以设置为SILK格式,这样岂不是可以不费吹灰之力就搞定了想想有点头疼的语音识别啦然而我们终究还是太年轻折腾了半天,在真机测试的时候发现木有半点反应,调试发现没有生成录音文件,真的是丈二和尚摸不着头脑的赶脚,最后查了一番资料才知道微信小程序在真机上只能设置成acc和mp3格式的),那么这里就不得不进行音频格式转化了。
此次分享废话不多说,直接上每一步的代码,首先上一波流程图
语音识别流程图
微信小程序端语音页面代码如下

      <view class='serac_img' bindtap="startRecord" wx:if="{{hasRecord == false}}">
        <image src='../../images/voice.png' mode="widthFix"></image>
        <text>语音查询</text>
      </view>
      <view class='serac_img' bindtap="stopRecord" wx:if="{{hasRecord == true}}">
        <image src='../../images/stop.png' mode="widthFix"></image>
        <text>录音中</text>
      </view>

Js部分的话,先引入wx.getRecorderManager()

const recorderManager = wx.getRecorderManager()

然后,在录音开始事件中进行录音参数设置及开启录音

startRecord() {
    this.setData({ 
      hasRecord: true
    })
    const options = {
      duration: 10000,
      sampleRate: 16000,
      numberOfChannels: 1,
      encodeBitRate: 48000,
      format: 'mp3'
    }
    recorderManager.start(options);
  }

最后,在停止录音事件里进行停止录音操作,并监控停止录音事件,获取到录音文件,使用wx.uploadFile()方法将录音文件传给后端,后端处理完成后返回最终处理信息并展示

stopRecord() {
    this.setData({ hasRecord: false })
    var that = this
    recorderManager.stop()
    recorderManager.onStop((res) => {
      const { tempFilePath } = res;
      wx.showLoading({
        title: '语音检索中',
      })
      //上传录制的音频
      wx.uploadFile({
        url: requestUrl + 'Rubbish/VoiceSearch',
        filePath: tempFilePath,
        name: 'voices',
        success: function (event) {
          var datas = JSON.parse(event.data);
          if (datas.status == 0) {
            wx.hideLoading()
            if (datas.result.list.length > 0) {
              that.setData({
                detail: datas.result
              })
            } else {
              wx.showToast({
                title: '如此聪明伶俐的我居然会词穷,我要喊我父亲大人送我去深造~',
                icon: 'none',
                duration: 2000
              })
            }
          } else {
            wx.showToast({
              title: datas.msg,
              icon: 'none',
              duration: 2000
            })
          }
        }
      })
    })
  }

后端代码采用avconv进行音频转化,这里采用腾讯语音识别-echo版Api接口来进行语音识别,具体实现如下
接收录音文件并进行转码

public function VoiceSearch(){
        $typeArr = array("mp3");
        $path = "Public/uploads/voice_search/"; //上传路径
        $name = $_FILES['voices']['name'];
        $size = $_FILES['voices']['size'];
        $name_tmp =$_FILES['voices']['tmp_name'];
        if (empty($name)) {
            jsonReturn(20000,'小主,请开口说话~');
        }
        $type = strtolower(substr(strrchr($name, '.'), 1)); //获取文件类型
        if (!in_array($type, $typeArr)) {
            jsonReturn(20002,'文件格式好像不对哟~');
        }
        if ($size > (5000 * 1024)) { //上传大小
            jsonReturn(20003,'小主,口才可是真真的好呢~');
        }
        $pic_name = date('YmdHis') . rand(10000, 99999) . "." . $type; //名称
        $pic_url = $path . $pic_name; //上传后路径+名称
        if (move_uploaded_file($name_tmp, $pic_url)) { //临时文件转移到目标文件夹
            $r_path = $_SERVER['DOCUMENT_ROOT'];
            $wavname = date('YmdHis') . rand(10000, 99999).".wav";
            $newpath = "Public/uploads/voice_search/".$wavname;
            //执行文件格式转换
            $exec1 = "avconv -i $r_path/$pic_url -vn -f wav $r_path/$newpath";
            exec($exec1,$info,$status);
            //转换成功后进入识别阶段
            if ($status == 0){
                //语音识别
                $r = $this->voiceGeneral(SITE_URL.'/'.$newpath);
                $resu = json_decode($r,true);
                if ($resu['ret'] == 0 && $resu['msg'] == 'ok'){
                    jsonReturn(0,'获取成功',$resu['data']['text']);
                }else{
                    jsonReturn(-1,'哎呀,人潮拥挤,请稍后重试~');
                }
            }else{
                jsonReturn(-1,'哎呀,人潮拥挤,请稍后重试~');
            }
        } else {
            jsonReturn(-1,'哎呀,人潮拥挤,请稍后重试~');
        }
    }

对接腾讯语音识别Api接口进行语音识别

 public function voiceGeneral($path){
        $url = 'https://api.ai.qq.com/fcgi-bin/aai/aai_asr';
        $data   = file_get_contents($path);
        $base64 = base64_encode($data);
        // 设置请求数据
        $appkey = 'WjjphPD0oqrPJSYm';
        $params = array(
            'app_id'       => '2018656256',
            'format'       => '2',
            'rate'         => '16000',
            'speech'       => $base64,
            'time_stamp'   => strval(time()),
            'nonce_str'    => strval(rand()),
            'sign'         => '',
        );
        $params['sign'] = $this->getReqSign($params, $appkey);
        // 执行API调用
        $response = httpRequest($url, 'POST',$params);
        return $response;
    }
  public function getReqSign($params , $appkey )
    {
        // 1. 字典升序排序
        ksort($params);
        // 2. 拼按URL键值对
        $str = '';
        foreach ($params as $key => $value)
        {
            if ($value !== '')
            {
                $str .= $key . '=' . urlencode($value) . '&';
            }
        }
        // 3. 拼接app_key
        $str .= 'app_key=' . $appkey;
        // 4. MD5运算+转换大写,得到请求签名
        $sign = strtoupper(md5($str));
        return $sign;
    }

至此,微信小程序语音识别就结束了,又可以愉快的玩耍了~
最后再上一个小程序码,欢迎大家扫码体验,有什么意见可以给我留言哟~
垃圾分类引导指南

介绍一下这个软件的目前功能 功能详解: 1:最重要的功能,也就是小程序转码(由于是官方接口,部分只取路径不转码的为手动转码都不可以的,当然机器人也实现不了) 2:一键查询群ID(此功能用于自动加好友拉指定群和发送关键词拉指定群) 3:关键词加群(如上,我见还有人专门另外写个插件另外推广,我的直接在一个软件内) 4:扫码登录小程序账号和接收登录小程序账号(扫码模式直接点击登录公众号会出现一个二维码在软件内,直接扫码登录,接收模式要提前设置一个WXID,给你的机器人发送登录公众号即可自动给你指定的wxid也就是微信号发送一个登录二维码,此举是为了免登服务器,且如果ck到期会自动提醒接收人) 5:自动加好友 6:加上好友自动发送指定消息或图片,或两者并存,且自定义拉群 7:自定义水印(可设置为群水印,私聊水印,这两种模式下又分为转码人的用户名和自定义水印,自定义水印主用于引流) 8:群聊和私聊都可以转二维码模式,别人分享给你网址或者直接发你链接即可转二维码,前提是前缀加http或者https协议头如:https://www.baidu.com 9:二维码转链接模式,发送二维码即可自动解析二维码要跳转的地址,也就是取链接. 10:自动生成appid功能,这个功能其实没啥用,我用于自己的发布活动平台跳转用的,所以加了个. 11:自定义是否关闭私聊功能(此功能折中意见,防止和公众号互怼!) 12:获取小程序路径,一目了然查看邀请链接邀请码,更方便薅羊毛 13:进群@通知并赠送点数(用于收费模式,如下) 14:重点推行的功能,也就是收费模式!支持私聊转码收费和群聊转码收费(转小程序码和转二维码均可设置,且价格自定义)新人加群送多少次数,邀请人进群送多少次数 15:消费提醒,当然这个也没什么卵用,之前定制的客户要的功能,就保留了. 16:这个需要留意:如果收费功能群里面要想转码的需要发送:创建账号 这四个字,否则不能转码,因为这个免费实行给你们,你们的客户无法在我这付费,只能给你们采取这个加数据表的功能,让数据库可以记录付费者的余额.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

袁威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值