背景
在企业的生产指挥、监控调度、展厅展示等场景中,大屏系统(例如拼接屏、LED 大屏)已经成为信息集成与决策展示的核心载体。传统上,用户依赖鼠标、键盘或触摸屏来操作大屏系统,交互方式单一,且对远程操控不够友好。
随着语音识别、自然语言处理(NLP)、虚拟数字人等技术的快速发展,大屏系统的人机交互方式正在经历一场革新:通过语音控制数字人助手,结合知识库、业务系统,实现自然交互式操作。
不过,实际落地时,语音识别容易受到嘈杂环境的影响,尤其是在监控大厅、调度中心这类噪声较大的场景。为解决这一问题,我们采用了 PTT(Push-To-Talk)按键式麦克风方案,在语音输入时“按下说话,松开结束”,显著降低了误触发和噪声干扰。
系统架构设计
整体架构分为五个核心部分:
-
语音输入层(PTT麦克风 + 音频采集模块)
-
采用有线/无线 PTT 麦克风,用户通过按键激活语音输入,保证只在发言时收音。
-
前端应用捕获音频流,并通过 WebSocket 传输至识别服务。
-
-
语音识别层(ASR 引擎)
-
使用科大讯飞。
-
实时转写用户语音为文本,并带有置信度输出。
-
-
自然语言理解层(NLU + LLM)
-
将识别文本输入至大模型(如 Qwen3),结合业务知识库进行意图识别和问答。
-
例如:
-
“切换到安防监控画面” → 大屏切换指令
-
“展示今日销售数据” → BI 数据看板调用
-
-
-
数字人交互层(虚拟人渲染 + TTS)
-
使用 3D 虚拟人或数字人 SDK(如 Unity/UE 渲染,或者 Web 端基于 DeepBrain、Tencent Digital Human)。
-
将模型回答通过 TTS 转换为语音,驱动数字人同步口型和动作,实现自然反馈。
-
-
大屏系统控制层(Web 控制 + API 集成)
-
数字人通过 API / WebSocket 向大屏系统发送控制命令(页面跳转、数据刷新、视频切换)。
-
与原有系统无缝对接,不破坏现有架构,只需开放接口。
-
技术实现要点
1. PTT 按键式麦克风优势
-
避免环境噪声:用户主动按键,明确输入时机,减少误触发。
-
操作简单:与对讲机一致的体验,培训成本低。
-
兼容性好:可作为 USB 音频设备或蓝牙输入设备,无需额外适配。
2. 前端集成
-
PTT 按钮触发时,才开始推送音频流。
3. 语音识别与数字人联动
-
ASR 输出文本 → NLU → LLM → 生成答复
-
同时生成 两路结果:
-
结构化指令(例如:
{ action: "switchPage", target: "sales_dashboard" })→ 控制大屏 -
自然语言应答 → TTS → 驱动数字人口型 → 语音播报
-
4. 数字人大屏交互
-
数字人既是“对话助手”,又是“大屏讲解员”。
-
可以在大屏侧边固定区域显示,也可以全屏演示。
-
支持根据业务场景更换形象(客服、讲解员、调度员)。
实际应用场景
-
监控调度中心
-
“展示 XX 区域摄像头” → 大屏切换实时画面
-
“查看今日告警统计” → 展示 BI 数据图表
-
-
展厅/汇报场景
-
领导或讲解员通过 PTT 麦克风与数字人互动,实时切换展示内容。
-
数字人以自然语言进行讲解,提升沉浸感。
-
-
企业大屏数据驾驶舱
-
通过语音查询财务、销售、运营数据
-
数字人可进行解说,辅助管理层决策
-
1646

被折叠的 条评论
为什么被折叠?



