Cleer Arc5耳机麦克风阵列波束成形技术验证
你有没有遇到过这种情况:戴着开放式耳机走在街上,想打个电话,结果对方听不清你在说什么?背景车流、行人喧哗、甚至一阵风都能把你的声音“淹没”——这正是开放式耳机长久以来的痛点。👂🌀
而Cleer最新发布的 Arc5开放式AI耳机 声称,即使没有物理入耳密封,也能实现“媲美封闭式耳机”的通话清晰度。怎么做到的?答案藏在它的核心技术里: 多麦克风阵列 + 数字波束成形(Beamforming) 。
这不是简单的降噪算法升级,而是一次从“被动拾音”到“主动聚焦”的听觉革命。今天我们就来拆解这套系统背后的工程逻辑,看看它到底靠不靠谱,又是否真的能改变我们对开放式耳机的认知。🔍💡
麦克风阵列:让耳机“听得更聪明”
传统单麦克风就像一只蒙着眼睛的耳朵——它只能听到所有方向的声音混在一起。而在嘈杂环境中,你想说的话和周围的噪音是平等的“听众”,谁 louder 谁胜出 😅。
但当你用两个或更多麦克风组成 阵列 时,事情就开始变得有趣了。
想象一下两个人站在不同位置听你说话:离你近的那个听得清楚,远一点的那个会晚几毫秒才收到声音。这种微小的时间差(TDOA,Time Difference of Arrival),就是空间定位的基础。🎯
Cleer Arc5 据推测采用了 双麦或三麦配置 ,分布在左右耳机外壳上。虽然受限于尺寸,无法像会议系统那样拉开距离,但在毫米级精度下,依然可以通过数字信号处理“算出”声源的方向。
关键流程如下:
- 同步采样 :两路麦克风同时录音,时间戳对齐;
- 延迟估计 :分析哪一路信号先到达,判断说话人方位;
- 加权叠加 :给不同通道施加相位补偿,让目标语音“同频共振”,噪声则相互抵消;
- 输出增强信号 :最终得到一个指向性强、信噪比更高的语音流。
这个过程,就像是为你的声音点亮了一盏“聚光灯”🔦——其他方向的干扰被压低,只留下你想表达的内容。
📌 小知识:为什么中高频段效果最好?
因为人声能量集中在 1–4kHz,波长较短,更容易通过相位差进行分辨;低频声音波长长,方向性弱,所以波束成形对低频噪声抑制有限。
波束成形是怎么“瞄准”你的声音的?
很多人以为波束成形是个神秘黑箱,其实它的核心思想非常直观: 利用物理规律 + 数学加权 = 方向性听觉 。
以最经典的 Delay-and-Sum(延迟累加) 算法为例,假设两个麦克风水平放置,间距约 4cm:
// 简化版 Delay-and-Sum 实现(C语言伪代码)
void delay_and_sum_beamform(float *mic1, float *mic2, float *output, float target_angle) {
float c = 340.0f; // 声速 (m/s)
float d = 0.04f; // 麦克风间距
float fs = 16000.0f; // 采样率
float theta_rad = target_angle * M_PI / 180.0f;
float tau = (d * sinf(theta_rad)) / c; // 理论时延(秒)
int delay_samples = (int)(tau * fs); // 转换为样本数
for (int n = 0; n < FRAME_SIZE; n++) {
int src_idx = n - delay_samples;
float delayed_mic2 = (src_idx >= 0) ? mic2[src_idx] : 0.0f;
output[n] = 0.5f * (mic1[n] + delayed_mic2); // 等权叠加
}
}
👉 当你说“我在正前方说话”(0°角)时,理论上两路信号几乎无延迟,直接相加即可增强。
👉 如果你偏左 30°,右耳麦克风会稍晚收到声音,算法就会提前“拉回”这部分信号,实现对齐。
当然,实际应用远比这复杂:需要插值处理非整数延迟、分频带处理、动态增益控制……但基本原理不变—— 让目标信号建设性叠加,让噪声破坏性抵消 。🧮✨
这类算法在资源受限的TWS耳机中极具可行性。相比计算量巨大的 MVDR 或 GSC 结构,轻量化的 Delay-and-Sum 已能在 500Hz–3kHz 范围内带来 6–10dB 的信噪比提升 ,足以显著改善 ASR(自动语音识别)准确率和通话体验。
它真的能在开放环境下 work 吗?🤔
开放式耳机最大的挑战是什么?不是听不到你说话,而是 什么都听到了 ——风噪、环境人声、反射混响……甚至连你自己咀嚼的声音都可能传进麦克风。
这时候,单纯的空间滤波还不够,必须结合更多智能策略:
✅ AI辅助语音检测:知道“谁在说话”
尽管官方未明确说明,但从 Arc5 支持 Snapdragon Sound + LE Audio + LC3 编码 来看,其音频链路极有可能集成了 AI 驱动的语音活动检测(VAD)模块。
这意味着系统不仅能“听见”,还能“理解”:
- 是用户本人在讲话,还是旁边路人?
- 当前是有效语音,还是只是背景闲聊?
- 噪声类型属于风噪、交通,还是多人重叠对话?
这些判断可以动态决定是否启用波束成形,或者切换不同的预设模式。🧠⚡
✅ 多传感器融合:感知头部动作
高端耳机已经开始引入 IMU(惯性测量单元)。当用户转头时,系统能预测交谈对象的方向变化,并提前调整波束中心,避免因 DOA 误判导致断连。
举个例子:你在骑行中突然回头跟朋友说话,耳机不会傻乎乎继续盯着前方,而是跟着你的脸“转向”,保持最佳拾音角度。🚴♂️🔄
✅ 场景自适应策略:智能匹配使用环境
| 使用场景 | 波束宽度 | 目标方向 | 后处理策略 |
|---|---|---|---|
| 室内安静通话 | 较宽 | 正前 ±30° | 轻度降噪 + AGC |
| 街道行走 | 中等窄 | 正前 ±15° | 强噪声抑制 + 风噪滤波 |
| 高速骑行 | 窄 | 正前 ±5° | 锁定唇部方向,关闭侧面增益 |
| 视频会议 | 双波束可选 | 用户+远端 | 支持双讲分离 |
这些配置可通过手机端蓝牙指令下发,实现跨设备协同优化,真正走向“情境感知型音频”。📱🎧
工程实现中的那些“魔鬼细节”😈🔧
再好的算法,也架不住硬件翻车。要想让波束成形稳定运行,以下几点至关重要:
1. 麦克风选型不能将就
- 推荐使用高 SNR(≥65dB)、低自噪声的 MEMS 麦克风;
- 全向型(Omni-directional)更利于一致性响应;
- 避免使用心形指向麦克风,容易引入非对称失真。
2. PCB布局要讲究“声学对称”
- 两麦克风的声学孔到振膜路径必须严格一致;
- 远离扬声器腔体,防止声泄漏造成串扰;
- 注意防尘网阻抗匹配,否则会影响频率响应。
3. 校准!校准!校准!📢
出厂前必须进行通道增益与相位校正:
- 否则会导致波束偏移、旁瓣升高(即不该放大的方向也被放大);
- 可通过暗室扫频测试完成逐台校准。
4. 控制算法延迟 < 20ms
语音通信对实时性要求极高:
- STFT 分帧通常取 20ms;
- 加上 FFT/IFFT 和滤波处理,总延迟需控制在可接受范围内;
- 否则会影响 VoIP 通话自然感,甚至触发 AGC 抖动。
5. 功耗管理要有策略
连续运行 DSP 波束成形会显著增加功耗:
- 建议仅在检测到语音活动(VAD触发)后才启动;
- 闲置时进入低功耗监听模式,平衡性能与续航。
系统架构一览:从拾音到传输的完整链条
Cleer Arc5 的音频处理链大致如下:
graph LR
A[MEMS麦克风×2/3] --> B[ADC + PDM解码]
B --> C[专用音频DSP / SoC]
C --> D[波束成形引擎]
C --> E[ANC模块]
C --> F[语音唤醒 Hey Cleer]
C --> G[编码上传 LC3 via LE Audio]
G --> H[智能手机/PC接收端]
可以看到,波束成形是整个语音链路的 第一道防线 。它输出的质量直接决定了后续 ANC、ASR、编码压缩的效果上限。
如果前端输入就是一团噪声,后面的算法再强也是“巧妇难为无米之炊”。🍚🚫
它解决了哪些真实痛点?
| 实际问题 | 技术对策 |
|---|---|
| 开放式耳机漏音严重 | 利用方向性抑制外部干扰,聚焦近场语音 |
| 风噪导致通话中断 | 结合气流敏感性建模,自动关闭迎风麦克风 |
| 多人交谈时识别错乱 | DOA + 语音特征匹配,锁定主讲人 |
| 低信噪比影响语音助手响应率 | 提供干净输入,提升 ASR 准确率 |
特别是最后一点,在 Siri、小爱同学等语音助手中尤为关键。很多用户抱怨“明明我说得很清楚,AI却听不懂”——往往不是模型不行,而是麦克风给的数据太脏。🧹
而有了波束成形加持,等于给语音助手配了个“听力教练”,让它听得更专注、更准确。
写在最后:耳机正在变成“个人语音感知终端”🚀
Cleer Arc5 的尝试,不只是为了卖点宣传,更是国产耳机向高端音频技术迈进的重要一步。
它证明了:即使没有耳塞封闭,只要设计得当,依然可以在开放环境中实现高质量语音交互。而这背后,是 声学、算法、嵌入式系统、AI 多学科交叉的结果。
未来我们可以期待更多可能性:
- 更小型化的多麦阵列;
- 基于深度学习的端到端波束成形(如 Conv-TasNet 架构);
- 与空间音频联动,实现“看向谁就听清谁”的交互范式。
也许有一天,我们的耳机不再只是一个播放器,而是具备空间听觉认知能力的 个人语音感知终端 ——它知道你在哪、你在跟谁说话、你希望听见什么、又想屏蔽什么。
这才是真正的“智能音频”。🎧🧠💫
而现在,Cleer Arc5 正走在通往这条路上的第一步。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
703

被折叠的 条评论
为什么被折叠?



