Audio-AIUI语音交互

AIUI交互详解

原创已于 2024-09-28 10:46:13 修改 · 2.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#交互 #语音识别 #人工智能 #android

于 2021-12-17 15:04:15 首次发布

Audio 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了AIUI交互的关键节点与状态转换，包括连接服务器、唤醒、音频处理等，并分析了异常情况如交互不回复、TTS无声等问题及其解决思路。

通过不同平台设置录音API tinyalsa获取到原始音频，经过回声消除、噪声抑制的简单算法处理得到的单声道音频数据，之后进行关键词唤醒、AI交互、语义理解以及各种TTS播报等场景的使用了。下面就对AIUI交互使用场景中的关键节点以及关键状态为的check问题进行一些分析，方便以后定位问题。

AIUI文档中心

1.AIUI流程分析

项目中用到的一些AIUI关键节点及事件状态，基本一套完整的AIUI交互就是以下事件中的不同状态间的切换并对不同状态进行处理即可。


public class AIUIConstant {
    
    ...
    
    public static final int EVENT_CONNECTED_TO_SERVER = 13;    //连接服务器成功
    public static final int EVENT_ERROR = 2;                   
    public static final int EVENT_RESULT = 1;                  //返回结果
    public static final int EVENT_SERVER_DISCONNECTED = 14;    //连接服务器失败
    public static final int EVENT_SLEEP = 5;                   //长时间未交互
    public static final int EVENT_STATE = 3;                   //服务器工作状态
    public static final int EVENT_TTS = 15;                    //TTS播报相关
    public static final int EVENT_VAD = 6;                     //音频输入相关
    public static final int EVENT_WAKEUP = 4;                  //成功唤醒

    ...

    public static final int CMD_RESET_WAKEUP = 8;              //AIUI进入SLEEP状态        
    public static final int CMD_RESULT_VALIDATION_ACK = 20;    //AIUI重置interac_timeout
    public static final int CMD_TTS = 27;                      //AIUI进入TTS播报状态
    public static final int CMD_WAKEUP = 7;                    //AIUI进入唤醒状态
    public static final int CMD_SET_PARAMS = 10;               //手动修改AIUI配置参数
    public static final int CMD_WRITE = 2;                     //手动向AIUI写入音频数据

    ...

    ///*服务器具体工作状态
    public static final int STATE_IDLE = 1;
    public static final int STATE_READY = 2;
    public static final int STATE_WORKING = 3;

    ///*服务器TTS具体状态
    public static final int TTS_SPEAK_BEGIN = 1;
    public static final int TTS_SPEAK_COMPLETED = 5;
    public static final int TTS_SPEAK_PAUSED = 2;
    public static final int TTS_SPEAK_PROGRESS = 4;
    public static final int TTS_SPEAK_RESUMED = 3;

    ///*服务器VAD具体状态
    public static final int VAD_BOS = 0;                      //语音输入开始前端点检测
    public static final int VAD_BOS_TIMEOUT = 3;              //语音输入在检测到前端点之后长时间未说话
    public static final int VAD_EOS = 2;                      //语音输入结束后端点检测
    public static final int VAD_VOL = 1;                      //语音输入过程

    ...

}

1.Connect to Server