千万级实时音视频转码架构设计方案

最新推荐文章于 2025-09-17 17:00:00 发布

原创最新推荐文章于 2025-09-17 17:00:00 发布 · 置顶 · 3.3k 阅读

CC 4.0 BY-SA版权

文章标签：

1 篇文章

订阅专栏

1 篇文章

订阅专栏

1 篇文章

订阅专栏

本文介绍了一种通过频域分量信号转成分贝数据来统计人声时长的方法，并给出了不同分贝范围内声音的具体含义。此外，还提供了基于serverless技术的音频实时转换接口参数及配置指南。

架构图

这里写图片描述

通过频域分量信号转成分贝数据，从而实现人声时间统计的。(建议设置为：20-60分贝左右的参数)
1分贝是人类耳朵刚刚能听到的声音，20分贝以下的声音，一般来说，我们认为它是安静的。20-40分贝大约是细声。40-60分贝属于我们正常的交谈声音。60分贝以上就属于吵闹范围了，70分贝我们就可以认为它是很吵的，而且开始损害听力神经，90分贝以上就会使听力受损

{
"name":xxx.mp3
"chnel":mon
"url":xxx.oss.ali.com/xxx.mp3
}

{
"name":xxx.mp3
"chnel":mon
"url":xxx.oss.ali.com/xxx.mp3
}