Cleer Arc5耳机麦克风输入通道的噪声分离技术

AI助手已提取文章相关产品:

Cleer Arc5耳机麦克风输入通道的噪声分离技术

你有没有遇到过这样的尴尬?骑着共享单车,风吹得耳边呼呼作响,刚想打个电话汇报工作,对方却听不清你在说什么——“你说啥?风太大了!” 😅 或者在地铁站喊 Siri:“帮我记一下明天开会时间”,结果语音助手一脸懵:“我没听清哦~” 🙃

这背后的问题,其实是 麦克风拾音被环境噪声严重污染 。而解决这个问题的关键,正是我们今天要聊的主角: Cleer Arc5 耳机中那套精密到毫秒级的麦克风输入通道噪声分离技术

别看它藏在小小的耳夹里,这套系统融合了硬件布局、信号处理算法和边缘AI推理,堪称“听得清”的黑科技交响曲。咱们不整虚的,直接拆开来看它是怎么做到 在开放佩戴下依然通话如面对面聊天般清晰 的。


双麦克风阵列:不是多一个就行,而是“会听方向”

Cleer Arc5 每边耳夹都配备了两个高信噪比(>65dB)的 MEMS 麦克风,一个朝前,一个朝后,形成经典的 双麦克风波束成形结构 。但这可不是简单堆料,关键在于它们之间的“默契配合”。

  • 前向麦克风 离嘴近,优先捕捉你的声音;
  • 后向麦克风 则像个“环境监听员”,专门收周围噪音。

由于人声是从前方来的,所以它到达前麦的时间比后麦早一点点——这个微小的时间差(通常几十微秒),就是系统判断“这是不是我要的声音”的第一线索 🔍。

通过分析两路信号的 相位差与能量差异 ,系统能构建一个虚拟的“拾音聚光灯”,只照亮你说话的方向,把其他方向的噪声统统压下去。就像你在嘈杂酒吧里,朋友凑近你耳朵说话,你能听清,但旁边的喧闹却被自动过滤了一样。

数学上可以用这个公式来理解:

$$
y(n) = w_1 \cdot x_1(n) + w_2 \cdot x_2(n - \tau)
$$

其中 $x_1$ 是前麦信号,$x_2$ 是后麦信号,$\tau$ 是估计的时间延迟,$w_1, w_2$ 是动态调整的权重。整个过程就像是在不断微调“谁更重要”,让最终输出尽可能接近纯净的人声。

实测数据显示,这套设计能在典型场景下带来 8~12dB 的信噪比提升 ,相当于把背景音乐从“摇滚现场”调成“轻柔背景音”。🎧

而且为了应对户外使用,Cleer 还做了物理+数字双重防风处理:
✅ 麦克风孔加了纳米级防风网,减少气流冲击;
✅ 内置风噪检测算法,一旦识别到高频爆音特征,立刻启动频谱修复机制,避免“噗噗”声传过去让人误以为你在喷麦 😂。


ANC 和语音通道居然还能打架?必须解耦!

很多人不知道的是,主动降噪(ANC)和语音通话其实是“潜在对手”。为什么?

因为 ANC 系统也要用麦克风——参考麦克风采集外界噪声,生成反向声波去抵消它。但如果这些噪声数据不小心混进了通话通道,就会出现一种诡异现象: 你自己都没听见的噪声,对方却听得一清二楚!

更糟的是,如果共用同一个麦克风,还可能导致语音信号被错误地当成噪声给“消除”掉,造成声音发闷、空洞,甚至断断续续。

Cleer Arc5 的解决方案很干脆: 三通道独立走线,各干各的活

通道 功能 是否参与通话
Reference Mic 为 ANC 提供噪声样本 ❌ 不参与
Error Mic 反馈降噪效果,闭环控制 ❌ 不参与
Speech Mic Pair 专用于语音采集 ✅ 唯一输入源

这种架构就像三条互不交叉的高速公路:一条跑降噪,一条跑反馈,一条跑语音。通过 I²S/PDM 接口实现物理隔离,再加上固件层权限管控,确保数据绝不串门。

不仅如此,系统还会在频域做一次“查重”:
🔍 把 ANC 已经处理过的噪声频段标记出来,在语音通道里主动衰减对应成分,防止重复处理导致失真。有点像两个人同时修图,一个去背景,一个调亮度,还得商量好别互相覆盖。

这样一来,ANC 可以安心降噪,通话也能保持干净,真正实现了 双轨并行、互不干扰 。端到端延迟控制在 <120ms ,完全满足实时通话要求,连视频会议都不会有口型不同步的烦恼。


AI 上阵:让耳机“听懂”什么是人声

波束成形再厉害,也只是基于物理规则做粗筛。真正的“杀手锏”,是藏在主控芯片 NPU 里的那个轻量级神经网络模型。

没错,Cleer Arc5 居然把 深度学习模型塞进了耳机本体 ,跑在 Qualcomm QCC5171 这类带 NPU 协处理器的平台上,实现真正的边缘智能语音分离。

它的流程大概是这样:

  1. 先对双麦信号做 STFT(短时傅里叶变换),变成一张“声音的热力图”——也就是梅尔频谱图;
  2. 把这张图喂给训练好的 DNN 模型(比如 U-Net 或 Conv-TasNet 结构),让它判断哪些部分是语音,哪些是噪声;
  3. 输出一个“语音掩码”,盖住噪声区域,保留人声轨迹;
  4. 最后再逆变换回时域,还原出干净的语音。

整个过程不到 20ms ,模型参数量控制在 50万以内 ,INT8 量化后占用 Flash 不到 300KB,完美适配嵌入式环境。

来看看核心配置👇

参数 数值
网络类型 Depthwise Separable Conv + LSTM
参数量 < 500K
推理延迟 < 20ms(@200MHz NPU)
支持噪声类型 白噪声、街道噪声、风噪、办公室语聊

是不是听起来很抽象?举个例子你就明白了:

想象你在咖啡馆小声说:“今晚回家吃饭。”
传统降噪可能直接把这段弱信号当噪声切掉了;
但 AI 模型会说:“等等,这频率走势像是人在说话,虽然小声,但我认得这个pattern!”于是把它留下来,还顺手补全了一些被掩盖的细节。

这就叫 弱语音增强能力 ,特别适合老人、女性或轻声细语的用户。再也不用担心“说得太轻对方听不见”了。

下面是简化版代码逻辑,感受一下它是如何嵌入资源受限平台的:

// 伪代码:DNN语音分离模块调用示例
void speech_enhancement_process(int16_t* mic_in, int16_t* speech_out) {
    float stft_buf[N_FFT];
    complex_t spectrogram[N_FFT/2+1][HOP_SIZE];

    // 1. 加窗STFT
    apply_window(mic_in, stft_buf, hamming_window);
    fft_real(stft_buf, spectrogram);

    // 2. 提取梅尔特征
    mel_spectrogram(spectrogram, mel_feat, n_mels=64);

    // 3. 归一化
    normalize(mel_feat);

    // 4. 调用TF Lite Micro模型
    tflite::MicroInterpreter interpreter(tflite_model, arena, ...);
    TfLiteTensor* input = interpreter.input(0);
    memcpy(input->data.f, mel_feat, sizeof(mel_feat));
    interpreter.Invoke();

    // 5. 获取掩码并重建
    TfLiteTensor* output = interpreter.output(0);
    apply_mask(spectrogram, output->data.f, enhanced_spectrogram);
    istft(enhanced_spectrogram, speech_out);

    // 6. 后处理
    deemphasis_filter(speech_out);
}

看到没?全程都在本地完成,不需要上传云端,隐私安全拉满🔒,响应速度也快到飞起⚡️。


实战表现:不只是打电话,更是未来交互的基石

把所有技术串起来,Cleer Arc5 的语音输入系统就像一支分工明确的特种部队:

[前向Mic] →→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→→
               ↓                              ↓
         [ADC采样]                     [波束成形DSP]
               ↓                              ↓
         [PDM转PCM]                  [自适应滤波处理]
               ↓                              ↓
             ↘______________________________↙
                             ↓
                   [DNN语音分离引擎(NPU)]
                             ↓
                    [编码器 → Bluetooth HCI]
                             ↓
                      [手机端接收与播放]

每一步都在为最终输出“高质量语音流”服务。实际体验中,你会发现几个明显改善:

  • 🌬️ 户外骑行时风噪大幅减弱,不再需要扯着嗓子喊;
  • 🚇 地铁车厢内多人交谈背景下,仍能准确锁定你的语音;
  • 🤫 小声嘀咕也能被清晰拾取,VAD(语音活动检测)灵敏度极高;
  • 🔄 回声问题得到有效抑制,开着外放视频通话也不会自激啸叫。

更妙的是,这一切都不是“一直全功率运行”的烧电大户。系统聪明得很:
🔋 DNN 只在 VAD 触发后才启动,平时休眠省电;
🌡️ NPU 间歇工作,配合温控机制防过热;
📦 模型支持 OTA 更新,未来还能越用越聪明!


写在最后:开放式耳机也能“听得清”,这才是真突破

很多人以为,“开放式耳机=音质好但通话差”。Cleer Arc5 用实际行动打破了这一刻板印象。

它证明了:即使没有耳塞封闭耳道,只要在 麦克风布局、通道隔离、AI算法 三个维度做到极致协同,照样可以实现媲美入耳式的语音采集性能。

而这套技术的价值,远不止于“打个清楚电话”。它为未来的智能音频设备打开了更多可能性:

🧠 全天候语音助手交互 ——走到哪儿都能自然唤醒;
🫁 健康语音监测 ——通过呼吸声分析睡眠质量或情绪状态;
💬 情感识别 ——感知语气变化,提供更人性化的服务。

所以说,Cleer Arc5 不只是在卖一款耳机,更像是在铺设一条通往“可穿戴语音智能终端”的技术路径 🛤️。

下次当你戴着它迎风骑行,却依然能从容通话时,不妨对自己笑一笑:
“嘿,科技终于跟上了生活的节奏。” 🎧✨

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

您可能感兴趣的与本文相关内容

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值