Cleer Arc5耳机运动场景下语音通话质量优化
你有没有遇到过这样的尴尬?正在跑步打电话,风呼呼地吹进麦克风,对方听不清你说什么,最后干脆来一句:“要不你到没风的地方再说?” 😅 而另一边,你在路边喘着气解释:“我这儿就是没风啊!” —— 这正是传统TWS耳机在 运动场景下的语音通话痛点 :听得见人声,但“听不清”。
Cleer Arc5作为一款主打开放式设计的智能运动耳机,偏偏要在这种高难度场景下“逆风翻盘”。它不靠塞住耳朵,也不依赖单一麦克风硬扛风噪,而是用一套 软硬协同的智能语音增强系统 ,让骑行、跑步、健身时的通话也能清晰如面对面交谈。这背后到底藏着哪些黑科技?咱们今天就来深挖一下。
想象一下:你在城市绿道骑行,时速20km/h,侧风吹得耳边呼啸,同时还要跟队友协调路线。这时候,耳机不仅要识别你的语音,还得从风噪、车流、呼吸声中把它“捞”出来。Cleer Arc5是怎么做到的?
核心答案藏在四个关键技术的联动上: AI降噪算法、双麦波束成形、惯性传感器辅助语音(ISS)、自适应环境识别 。它们不是简单堆叠,而是像一支配合默契的乐队——每个模块各司其职,又实时协同,共同演奏出清晰通话的主旋律 🎵。
先说最“聪明”的那位乐手:
AI驱动的深度神经网络降噪引擎
。
它不像传统降噪那样“一刀切”地砍掉高频声音,而是像个老练的调音师,能分辨什么是风噪、什么是脚步声、什么是真正的语音。它的大脑是一套轻量级DNN模型,专为运动场景训练而成,数据里包含了各种真实环境下的噪声样本:风噪、呼吸、脚步、甚至健身房器械的撞击声。
工作流程是这样的:麦克风采集的声音先被切成小帧,经过短时傅里叶变换(STFT)变成频谱图,然后喂给DNN模型。模型会预测出“干净语音”的幅度谱,再结合原始相位信息,逆变换回时域输出。整个过程延迟控制在 60ms以内 ,几乎无感,而且支持24kHz采样率,连“嘶”“齿”这类高频辅音细节都不丢。
更关键的是,这个模型只有不到500KB,跑在ARM Cortex-M系列的低功耗MCU上毫无压力。代码层面也做了极致优化,比如用定点数代替浮点运算,减少能耗:
// DNN推理核心调用示例(简化版)
void dnn_noise_suppression_process(q15_t *input_frame, q15_t *output_frame) {
arm_cfft_instance_q15 S;
q15_t fft_buffer[FFT_SIZE];
// 1. STFT变换
memcpy(fft_buffer, input_frame, sizeof(q15_t)*FRAME_SIZE);
arm_cfft_q15(&S, fft_buffer, 0, 1); // 执行CFFT
// 2. 幅度谱提取并归一化
extract_magnitude_spectrum(fft_buffer, mag_spectrum);
normalize_spectrum(mag_spectrum);
// 3. DNN前向传播(调用CMSIS-NN内核)
nn_inference(mag_spectrum, clean_mask); // 输出噪声掩模
// 4. 应用掩模并重构信号
apply_mask_and_istft(fft_buffer, clean_mask, output_frame);
}
这段代码跑在主控芯片上,
nn_inference()
封装了量化后的神经网络推理,确保在有限算力下依然高效。实验室数据显示,这套系统能实现
最高18dB的动态信噪比提升
,相当于把嘈杂街道瞬间“调静”了两档。
但光有AI还不够。如果麦克风本身拾到了太多风噪,再强的算法也可能“巧妇难为无米之炊”。于是,第二位主角登场了: 双麦克风波束成形技术 。
Cleer Arc5在耳挂外侧前后布置了两个麦克风,间距约1.8cm——虽然略小于理想值(λ/4 ≈ 2cm),但通过差分式波束成形架构,依然能形成一条指向嘴部的“拾音走廊”。系统利用信号到达的时间差(TDOA),构建MVDR或延迟-求和滤波器,动态调整加权系数,让主瓣对准嘴唇方向,旁瓣则用来压制侧面和后方的干扰。
实际测试中,这套系统在3–6m/s风速下可实现 15dB以上的风噪抑制 。更妙的是,它还能结合IMU数据做姿态感知波束跟踪。比如你歪头说话,系统会自动校正波束方向,避免因佩戴角度偏差导致拾音失败。
不过,当风太大时,空气传导的麦克风还是会“失灵”。这时候,第三位神秘嘉宾出手了: 惯性传感器辅助语音增强(ISS) 。
ISS的原理有点“硬核”:当你说话时,声带振动会通过颅骨传导到耳机接触点,产生微小震动。Cleer Arc5内置的MEMS加速度计能捕捉这些0.1–20Hz的振动信号,作为“生理级语音证据”。即使风噪把麦克风淹没了,只要ISS检测到振动节奏与语音一致,就能确认“你确实在说话”。
系统通过一个自适应融合公式将两种信号结合:
$$
P_{speech} = \alpha \cdot P_{mic} + (1 - \alpha) \cdot P_{vibration}
$$
其中α由环境噪声水平动态调节。安静时偏重麦克风信号,风大时则逐渐提高ISS权重,最高可达70%。这招在骑行场景特别管用——实测显示,ISS能让VAD(语音活动检测)误触发率降至 2%以下 ,彻底告别“断续通话”的窘境。
当然,这一切的前提是:系统得知道你现在处于哪种场景。这就轮到第四位幕后指挥官出场了: 自适应环境识别系统 。
它就像一个“场景侦探”,每5秒扫描一次周围环境,综合分析声音频谱、风噪脉冲密度、步频、ISS信噪比等特征,用一个轻量级CNN模型判断当前状态:
# 场景分类伪代码(Python示意)
def classify_scene(audio_features, imu_data):
mfccs = extract_mfcc(audio_features) # 提取梅尔频率倒谱系数
wind_index = compute_wind_plosive_density() # 计算爆破风噪指数
step_freq = detect_step_frequency(imu_data) # 步频检测
feature_vector = [mfccs, wind_index, step_freq, snr_vibration]
scene_label = cnn_model.predict(feature_vector)
return SCENE_MAP[scene_label] # 如:"indoor", "running", "cycling"
一旦识别为“跑步”模式,系统立即加载对应参数组:波束主瓣展宽至±35°以适应头部晃动,DNN切换至“wind-heavy”模式强化低频滚降,ISS权重上调……整个切换过程在800ms内完成,用户完全无感。
整个系统的硬件架构也相当讲究:
[麦克风阵列] → [ADC] → [DSP/BT SoC]
↗
[IMU传感器] ————→ [Sensor Hub]
↘
[Aux Mic / Vibration Sensor] → [AFE]
↓
[AI语音处理引擎]
↙ ↘
[波束成形] [DNN降噪]
↘ ↙
[融合增强语音]
↓
[蓝牙编码传输]
主控平台采用类似Qualcomm QCC5171的高性能低功耗SoC,支持双核异构计算,确保AI任务实时运行。同时,麦克风开孔采用疏水防尘膜+迷宫式声道设计,物理层面减少风噪冲击;电源管理策略也让AI模块仅在通话时激活,不影响续航。
实际应用中,这套系统解决了多个典型问题:
| 问题 | 解决方案 |
|---|---|
| 强风导致语音模糊 | DNN+波束成形联合降噪,ISS辅助语音确认 |
| 多人交谈背景干扰 | 方向性波束抑制侧向噪声源 |
| 呼吸声过大淹没语音 | 自适应动态范围压缩(DRC)抑制近场爆音 |
| 不同佩戴角度影响拾音 | IMU辅助波束方向校正 |
值得一提的是,Cleer并没有一味追求“降噪越强越好”。他们保留了部分环境音(尤其是>85dB的交通警示声),确保用户在户外仍能感知危险,真正做到了 安全与清晰的平衡 。
回过头看,Cleer Arc5的语音优化策略,本质上是从“被动拾音”走向“主动理解”的转变。它不再只是个麦克风盒子,而是一个能感知环境、理解行为、动态决策的智能终端。这种能力的背后,是国产音频品牌在高端算法与系统集成上的显著进步。
未来呢?随着端侧AI算力持续释放,我们或许能看到更多创新:比如结合骨传导进一步提升语音可靠性,甚至通过EEG感知情绪状态来优化通话体验。开放式耳机的边界,正在被一点点推开。
而现在,Cleer Arc5已经证明了一件事:即便不入耳,也能说得清。🎙️💨
这才是运动耳机该有的样子——自由聆听,畅快表达。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
Cleer Arc5耳机运动场景语音通话优化揭秘
10万+

被折叠的 条评论
为什么被折叠?



