- 博客(8)
- 收藏
- 关注
原创 实时音频通话过程中AI降噪的实现(windows/Android)
本文探讨了实时音频通话中3A算法(AEC、ANS、AGC)的重要性,并针对WebRTC原生3A算法在特定场景下的不足,提出了基于开源项目DFSMN-ANS和RNNoise的优化方案。作者详细介绍了将这两个项目集成到音视频SDK的过程,包括算法移植、推理框架适配(支持ONNX、NCNN、RKNN)以及灵活的接口设计。通过性能测试显示,优化后的方案在啸叫抑制和噪声消除方面表现优异,尤其在处理突发性噪声时效果显著。该方案采用纯C/C++实现,便于跨平台移植,为中小型企业提供了可行的实时音频处理解决方案。
2025-12-24 13:07:05
822
1
原创 Kokoro-TTS的C++移植(windows, linux, android)
文章到这里就结束了,希望对大家有点帮助,有任何有疑问的地方欢迎评论区交流,如果有需要Demo体验的请留言,如果使用Demo的过程种有好的建议和意见或者碰到了什么BUG也欢迎在评论去留言, 笔者下一步是把这个项目移植到android/openharmony+rk芯片上面并且采用rknn推理,应该会有不错的结果吧(rk3566/rk3568NPU有0.8TOPS的算力,rk3576/rk3588NPU有6TOPS的算力)。“任正飞是非常优秀的企业家,完成很多艰难的任务,单仁海也一样是很优秀的企业家。
2025-09-26 15:43:49
1839
1
原创 Android11-rk3566平台上采用NCNN,RKNN框架推理yolo11官方模型的具体步骤以及性能比较
yolo11, android, rk3566, rknn
2025-05-27 17:19:13
2572
2
原创 Openharmony4.0摄像头采集+编码器+预览的优化
在实时音视频场景下,终端上面的摄像头除了需要本地预览之外,还需同时经过编码器编码成ES流再通过网络发送出去,而在一些嵌入式设备上面性能是一个瓶颈(终端的售价决定了硬件的配置,硬件的配置决定的性能),音视频应用程序除了要显示本地摄像头图像和编码摄像头数据之外,还要做比如远端图像的解码显示,音频3A的处理,音频的采集和播放等,这就要求我们对每一个可优化的功能模块进行仔细的研究、分析、优化,以达到在音视频通话过程中的时候不卡顿并且功耗还是尽量的低。
2024-09-20 12:33:09
2760
1
原创 Openharmony4.0上WebRTC的移植
自此我们就完成了WebRTC c/c++库在Openharmony4.0上的移植,从实际的工作量来看完成功能的移植和性能的优化时间各占用了一半,而其中功能的移植需要大家对webrtc代码有足够的了解和熟悉(尤其需要对摄像头管理和数据的采集,编解码器,图形渲染,音频的采集和播放这几个模块代码的深入理解),以及对Openharmony系统提供的多媒体api熟练的使用,这部分工作完成了就可以满足大部分的终端设备音视频通话的使用了。上面的移植工作完成之后,所有的功能都可以跑起来了,到此大家是不是以为移植工作完成?
2024-09-19 09:53:30
3226
5
原创 Openharmony4.0音频框架的理解和在rtc应用上面的优化
Openharmony, OHAduio, OpenSles, RTC 音频开发
2024-09-13 10:04:47
1741
3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅