Cleer Arc5耳机双麦通话降噪算法详解
你有没有遇到过这样的场景?地铁里打电话,对方听不清你说什么;跑步时风呼呼地吹进耳机,语音助手完全“失聪”;办公室开线上会议,键盘敲击声和同事聊天全被传了过去……😤
这些尴尬,归根结底是 通话降噪没做好 。而如今,随着TWS耳机越来越智能,用户早已不满足“能听见”,而是要求“听得清、听得真”。Cleer Arc5作为一款主打高端音频体验的旗舰耳机,正是在这一痛点上发力——它用一套 双麦克风 + 自研AI算法 的组合拳,把通话质量拉到了新高度。
那它是怎么做到的?今天咱们就来拆一拆它的“语音外脑”:从硬件布局到信号处理,再到深度学习模型如何在小小的耳机里实时工作。准备好了吗?🎧🔍
双麦不是随便放两个麦克风那么简单
很多人以为“双麦降噪”就是多加一个麦克风,听起来更清楚。但其实, 位置、方向、间距、拾音特性 ,每一个细节都经过精密设计。
在Cleer Arc5上,两个MEMS麦克风分别布置在耳柄的前后位置:
- 主麦克风(前向) :朝向嘴部方向,主要捕捉你的语音 + 环境噪声
- 副麦克风采样点(后/侧向) :藏在相对遮蔽的位置,更多接收环境噪声,人声成分极少
这就像两个人站在一起听你说话——一个人正对着你,听得最清楚;另一个人背对你,只能听到周围的杂音。系统聪明地利用这个“信息差”,把背景噪音“减掉”,留下干净的人声。🧠
这种结构叫 误差反馈型双麦架构 ,核心思想是:
“我知道环境长什么样,那我就能把它从混合信号里抠出去。”
具体怎么做?靠三个关键技术: 声源定位、噪声参考提取、自适应滤波 。
声源定位:听出“谁在说话”
当你开口时,声音先到达离嘴近的主麦克风,再传到副麦克风,中间有几十微秒的时间差。系统通过计算两路信号的互相关函数,判断声源是不是来自前方(也就是你)。如果是侧面或后面传来的声音(比如路人讲话),直接打上“干扰”标签,准备干掉!🎯
噪声参考:找个“替罪羊”
副麦克风由于物理遮挡,收到的直达语音非常弱,但它对环境噪声很敏感。这就让它成了理想的“噪声样本采集器”。系统把它当作一个“噪声模板”,然后想办法让主麦克风里的噪声长得像它——这样就能精准扣除。
自适应滤波:动态去噪,越学越准
最关键的一步来了:怎么从主信号里减去噪声?
这里用的是经典的
NLMS(归一化最小均方)算法
,它会不断调整一个滤波器权重
w(n)
,使得副通道经过滤波后的输出尽可能接近主通道中的噪声部分。然后从主信号中减去这部分估计值,剩下的就是“净化后”的语音。
数学表达式很简单:
y(n) = x_main(n) - w(n) * x_ref(n)
别看公式短,背后可是实打实的实时运算。每毫秒都在自我修正,适应变化的环境——比如你突然从安静房间走到马路边,系统0.2秒内就能完成噪声模型切换。⚡️
为什么双麦比单麦强那么多?
我们来做个直观对比👇
| 维度 | 单麦克风方案 | Cleer Arc5 双麦方案 |
|---|---|---|
| 降噪逻辑 | 谱减法(一刀切) | 空间滤波(定向聚焦) |
| 语音保真度 | 容易削掉高频,声音发闷 | 保留更多细节,像面对面说话 |
| 风噪表现 | 易爆音、失真严重 | 物理防风罩+算法联合抑制 |
| 实际提升效果 | 语音可懂度约提升10–15% | 实验数据显示可达25–35% |
你会发现,单麦本质上是在“猜”哪里是噪声,而双麦是“看到”噪声从哪来,然后精准打击。🎯
而且,Cleer没有盲目堆料搞三麦甚至四麦(虽然某些品牌这么干),而是在 性能、功耗、体积 之间找到了黄金平衡点。毕竟,TWS耳机空间寸土寸金,塞太多麦克风反而影响佩戴舒适性和防水设计。
AI加持:让耳机“听懂”世界
如果说双麦系统是“耳朵”,那AI算法就是它的“大脑”。
Cleer Arc5搭载了自家研发的 AI Voice Clear+ 引擎,运行在耳机内置的专用DSP+NPU异构处理器上。这套系统不只是简单过滤噪声,而是能做到:
- 区分你是真正在说话,还是只是喘口气(VAD)
- 判断你现在是在地铁、咖啡馆还是刮大风(噪声分类)
- 把被噪声淹没的语音频段“修复”回来(频谱重建)
整个流程走下来,就跟修图似的——先识别哪些像素是噪点,再智能填补真实内容。只不过这里是“修声音”。🖼️🔊
AI降噪全流程揭秘
第一步:预处理 → 把声音变成“图片”
原始音频信号是时间轴上的波形,但AI更擅长处理图像类数据。于是系统先把信号转成 梅尔频谱图(Mel-Spectrogram) ——一种反映声音频率随时间变化的二维热力图,相当于给声音拍张“照片”。
📸 示例:你说一句“Hello”,频谱图上会出现明显的横纹(基频和谐波),而噪声则是杂乱无章的斑点。
第二步:噪声感知 → “这是什么噪音?”
一个小巧的CNN网络快速分析这张“声音照片”,识别当前噪声类型:是白噪声?街道车流?空调嗡鸣?还是恼人的风噪?
一旦识别成功,系统立刻调用对应的降噪策略——就像相机自动切换夜景模式一样智能。
第三步:语音检测(VAD)→ 别把呼吸当人声!
接下来由一个Bi-LSTM网络判断每一帧是否包含有效语音。为什么要这么谨慎?
因为传统降噪容易犯错:你停顿一下,系统以为你讲完了,结果把你下半句开头给切掉了😅。而AI VAD能结合上下文判断,哪怕你轻声细语、短暂沉默,也不会误判。
第四步:生成掩码 → 给语音“打高光”
这才是重头戏——使用一个精简版U-Net结构生成 理想比例掩码(IRM) 。
什么叫掩码?你可以理解为一张“透明贴纸”,贴在频谱图上,告诉系统:“这块区域主要是人声,放大;这块全是噪声,压低。”
IRM不是简单的0/1开关,而是连续值(0~1),允许部分保留,避免生硬切割导致的“机械感”。
然后把这个掩码乘回原始频谱,得到“去噪版”频谱图。
第五步:还原声音 → 从频谱变回语音
最后一步逆FFT,把处理过的频谱图变回时域波形,再加上AGC(自动增益控制)、AEC(回声消除)等后处理模块,确保输出音量稳定、不啸叫、不失真。
整个过程延迟控制在 10ms以内 ,比眨眼还快,蓝牙传输毫无压力。⚡️
实战代码长啥样?看看耳机里的AI是怎么跑的
你以为深度学习只能跑在服务器上?错!现在的TWS耳机也能玩转神经网络。下面是一段简化版的C语言伪代码,展示AI降噪在耳机DSP上的真实运作流程:
void ai_noise_suppression_loop() {
while (running) {
// 1. 获取双麦PCM数据
int16_t* mic_main = get_microphone_data(MIC_MAIN);
int16_t* mic_ref = get_microphone_data(MIC_REF);
// 2. 预加重 & 去直流
apply_pre_emphasis(mic_main, FRAME_SIZE);
apply_pre_emphasis(mic_ref, FRAME_SIZE);
// 3. FFT转频域
float complex* X_main = fft_forward(mic_main);
float complex* X_ref = fft_forward(mic_ref);
// 4. 计算梅尔频谱
float mel_spect[128][64];
compute_mel_spectrogram(X_main, mel_spect);
// 5. DNN推理:获取IRM掩码(NPU加速)
float irm_mask[128][64];
dnn_inference(mel_spect, irm_mask);
// 6. 应用掩码
for (int i = 0; i < 128; i++) {
for (int j = 0; j < 64; j++) {
X_main[i][j] *= irm_mask[i][j];
}
}
// 7. 逆FFT还原
int16_t cleaned_audio[FRAME_SIZE];
ifft_backward(X_main, cleaned_audio);
// 8. 后处理 & 发送蓝牙
agc_apply(cleaned_audio);
aec_update(cleaned_audio);
send_to_bt_stream(cleaned_audio);
}
}
💡 小知识:实际部署中,这个DNN模型会被压缩成INT8定点格式,内存占用不到500KB,功耗仅0.8mA @1.2V——完全不影响续航!
整体系统怎么协同工作?
Cleer Arc5的通话降噪不是一个孤立功能,而是一整套软硬协同的生态系统:
[主麦克风] → ADC → ┌──────────────┐
│ 双麦融合模块 │ → AI降噪引擎 → 编码传输
[副麦克风] → ADC → └──────────────┘ ↑
OTA ← 云端训练平台
- 前端硬件层 :高信噪比MEMS麦克风 + 防水透声膜,保证输入质量
- 中间处理层 :DSP负责传统信号处理,NPU跑AI模型,分工明确
- 算法栈层 :VAD、IRM、AGC、AEC等模块层层递进,缺一不可
- 云端闭环 :脱敏语音样本持续回传,用于迭代优化模型,越用越聪明 🧠
更贴心的是,所有语音处理都在本地完成, 原始音频绝不上传云端 ——既保护隐私,又避免网络延迟影响体验。
它到底解决了哪些现实问题?
来几个典型场景感受一下:
🚇
城市通勤
地铁报站广播、列车进站提示音频繁打断通话?AI能快速识别这类突发噪声并瞬时抑制,不会让你说一半被“静音”。
🏃♂️
户外运动
跑步时风速5m/s以上,普通耳机早就噼啪作响。但Arc5通过
疏水涂层 + 声学迷宫结构 + 算法滤波
三重防护,SPL增益损失小于3dB,风声几乎听不见。
🏢
办公室会议
键盘敲击、空调低频嗡鸣、同事闲聊……这些窄带噪声最容易干扰语音编码。系统能精准识别并屏蔽,只保留你的声音,让远程协作更专业。
📶
弱网/断连情况
即使蓝牙信号不稳定,本地AI依然可以独立运行,保持基本降噪能力,不至于瞬间“裸奔”。
工程师的小心思:那些你看不见的设计
好产品从来不只是参数漂亮,更是无数细节堆出来的。Cleer在设计时考虑了很多“隐形因素”:
✅
麦克风间距8–12mm
:太近无法分辨方向,太远又撑大耳柄,影响佩戴
✅
声学密封性
:每个开孔都有防水透声膜,防止内部串扰
✅
功耗管理
:AI模块仅在语音活动时唤醒,空闲时休眠省电
✅
OTA静默升级
:后台下载算法更新包,用户体验无缝过渡
✅
隐私优先
:所有语音数据本地处理,不出设备半步
特别是那个 物理防风罩设计 ,看起来只是个小网格,其实是经过CFD气流模拟优化的声学迷宫,能让风噪衰减20dB以上。🌬️🌀
写在最后:耳机正在变成“语音外脑”
Cleer Arc5的这套双麦+AI方案,标志着TWS耳机正从“被动播放器”走向“主动理解者”。
它不再只是听音乐的工具,而是你与数字世界沟通的桥梁——无论是打电话、语音输入、还是唤醒助手,都要依赖它帮你“说得清”。
而这背后,是 硬件选型、算法压缩、场景建模、边缘计算 的全面协同。少了哪一环,都做不到如此自然流畅的体验。
未来,随着端侧AI能力进一步增强,我们或许能看到耳机自己总结会议要点、实时翻译外语对话、甚至预测你想说什么……🤖💬
而现在,Cleer Arc5已经迈出了关键一步:
让每一次通话,都像面对面交谈一样清晰自然。
你觉得,下一代耳机还能“听”出什么新花样?欢迎留言聊聊~ 😄👇
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

被折叠的 条评论
为什么被折叠?



