AI Agent智能体 - 实时语音对话客户端（OmniServerVad）-优快云博客

功能概述

基于《JavaUtils系列 - 实时PCM音频播放器（RealtimePcmPlayer）》实现支持语音和图像输入的实时对话系统，使用麦克风输入语音，并可选发送图像数据，接收语音回复并播放。

核心流程

1. 初始化

String imageB64 = null;
if (EnableVisionInput) {
    // 读取图片并转为 Base64
    File imageFile = new File("data/cat_480p.jpg");
    // ... 读取文件并编码为 Base64
}

2. 配置 Omni 参数

OmniRealtimeParam param = OmniRealtimeParam.builder()
        .model("qwen-omni-turbo-realtime-latest")
        .build();

3. 创建音频播放器

RealtimePcmPlayer audioPlayer = new RealtimePcmPlayer(24000);

4. 创建对话回调

OmniRealtimeConversation conversation = new OmniRealtimeConversation(param, new OmniRealtimeCallback() {
    @Override
    public void onEvent(JsonObject message) {
        String type = message.get("type").getAsString();
        switch(type) {
            case "response.audio.delta":
                String recvAudioB64 = message.get("delta").getAsString();
                audioPlayer.write(recvAudioB64); // 播放回复音频
                break;
            case "input_audio_buffer.speech_started":
                audioPlayer.cancel(); // 用户开始说话，取消当前播放
                break;
            // ... 其他事件处理
        }
    }
});

5. 连接并配置会话

conversation.connect();
OmniRealtimeConfig config = OmniRealtimeConfig.builder()
        .modalities(Arrays.asList(OmniRealtimeModality.AUDIO, OmniRealtimeModality.TEXT))
        .voice("Chelsie")
        .enableTurnDetection(true)
        .enableInputAudioTranscription(true)
        .InputAudioTranscription("gummy-realtime-v1")
        .build();
conversation.updateSession(config);

6. 录音和发送数据

TargetDataLine targetDataLine = AudioSystem.getTargetDataLine(audioFormat);
targetDataLine.open(audioFormat);
targetDataLine.start();

ByteBuffer buffer = ByteBuffer.allocate(1024);
while (System.currentTimeMillis() - start < 50000) {
    int read = targetDataLine.read(buffer.array(), 0, buffer.capacity());
    if (read > 0) {
        String audioB64 = Base64.getEncoder().encodeToString(buffer.array());
        conversation.appendAudio(audioB64); // 发送音频数据
        
        if (EnableVisionInput && System.currentTimeMillis() - last_photo_time > 500) {
            conversation.appendVideo(imageB64); // 每 500ms 发送一次图片
            last_photo_time = System.currentTimeMillis();
        }
        
        Thread.sleep(20); // 控制发送频率
    }
}

7. 结束会话

conversation.commit();
conversation.createResponse(null, null);
conversation.close(1000, "bye");
audioPlayer.waitForComplete();
audioPlayer.shutdown();