音视频开发
文章平均质量分 95
本专栏介绍音视频的相关知识
Leon_Chenl
一个爱运动的boy,专注于嵌入式领域,希望能和志同道合的小伙伴一起学习进步。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【图文版】AIOT 小智 AI 聊天机器人 ESP32 项目源码图解
小智 AI 聊天机器人是最近一个很火的开源项目,它借助LLM大模型以及TTS等AI的能力,通过自然语言来与其对话实现交互。它可以回答任何问题、播放音乐、背诵古诗,颇有未来AI机器人的雏形。因为最近工作上的需要对其进行了研究,因此有了本篇文章。本文不会过多的讲解源码,而是通过图解各个架构和数据流的方式,带大家搞懂它的工作原理。我相信只要搞懂了工作原理,再来看源码就会简单很多,废话不多说,马上进入正题。源码: https://github.com/78/xiaozhi-esp32 ,本文章基于源码。原创 2025-07-28 09:00:00 · 6188 阅读 · 0 评论 -
深入浅出-回声消除(AEC)
声音的回荡,或称回声,是一种我们既熟悉又可能感到困扰的声学现象。在空旷的山谷中呼喊,声音会在山壁间反射,片刻之后传回我们的耳朵,形成清晰的回响。这种自然界的回声通常富有诗意,但在现代通信技术中,类似的现象却可能演变成通话质量的“破坏者”。在电子通信设备,如座机、手机或免提会议系统中,我们都可能经历过声学回声——即在通话时听到自己声音的延迟重复。这种回声的定义是声波形态的重复;在电信领域特指通话时,自己的声音在接收端发生反射并通过听筒传回的现象。如果回声的振幅较低,或者延迟极短,它可能不会被注意到。原创 2025-06-13 10:58:14 · 2193 阅读 · 0 评论 -
什么是音频?
音频,在其最核心的层面,即是我们通常所说的声音。它起源于物体的振动。这些振动扰动了其周围的介质(例如空气或水),在介质中产生了微小的压力变化,这些压力变化以波的形式传播开来。当这些压力波到达我们的耳朵时,耳内的复杂机制会探测到这些变化,并将其转换成神经信号,我们的大脑随后将这些信号解读为声音。正如一段简练的描述所言:“普遍物体的振动形成声波,即声音”。这种对音频物理基础的理解至关重要,因为它揭示了音频并非一个抽象概念,而是一种可触可感的物理现象。原创 2025-06-13 10:43:00 · 1510 阅读 · 0 评论 -
H.264 vs H.265
本文深入浅出介绍了H.264和H.265以及它们的区别,并给出相关选型建议原创 2025-01-22 09:41:40 · 2303 阅读 · 0 评论 -
瑞芯微 RK 系列 RK3588 使用 ffmpeg-rockchip 实现 RGA 2D 图形操作硬件加速-代码版
在上一篇文章中,我介绍了 ffmpeg-rockchip MPP 硬编解码的代码实现方式。在这篇文章,我将介绍 ffmpeg-rockchip RGA 的代码实现方式。RGA 是一个用于图像缩放、旋转、bitBlt、alpha混合等常见的2D图形操作的硬件单元,它的应用场景很广泛,比如可以将 4k 视频缩小到 1080p,再比如可以用于 yolo 模型推理的预处理阶段,提高整个处理链路的效率。本文不仅适用于 RK3588,还适用于 RK 家族系列的芯片,具体的细节可查看官方 RGA 文档。下面分别介绍。原创 2025-01-13 09:07:34 · 4896 阅读 · 13 评论 -
瑞芯微 RK 系列 RK3588 使用 ffmpeg-rockchip 实现 MPP 视频硬件编解码-代码版
在上一篇文章中,我们讲解了如何使用 ffmpeg-rockchip 通过命令来实现 MPP 视频硬件编解码和 RGA 硬件图形加速,在这篇文章,我将讲解如何使用 ffmpeg-rockchip 用户空间库(代码)实现 MPP 硬件编解码。本文不仅适用于 RK3588,还适用于 RK 家族系列的芯片,具体的细节可查看官方 MPP 文档。原创 2025-01-13 09:02:14 · 9575 阅读 · 46 评论 -
瑞芯微 RK 系列 RK3588 使用 ffmpeg-rockchip 实现 MPP 硬件编解码和 RGA 图形加速-命令版
最近使用 RK3588 在做音视频项目开发,过程中使用了该芯片提供的硬件编解码和 2D 图形加速能力,发现相比软编解码,硬编解码无论是处理速度、系统负载还是稳定性,都比软编解码强太多了。本文将分享如何使用 RK 提供的 FFmpeg + MPP + RGA,实现一个硬件编解码+2D图形加速的功能,全部使用命令行来完成。后面也会出一篇使用开发库实现的源码版。本文不仅适用于 RK3588,也还适用于其他 RK 系列的芯片,具体的细节出入请参考官方文档。原创 2025-01-06 08:59:50 · 25999 阅读 · 82 评论 -
一文搞懂 RTSP 协议
本文介绍了什么是 rtsp 协议,以及它的由来,它支持的请求方式以及工作流程,最后给出与其他流媒体协议的对比原创 2025-01-06 08:49:35 · 2505 阅读 · 0 评论 -
计算机是如何存储音频的?
在这篇文章中,我们将快速浏览音频数据如何保存到计算机及其背后的术语,并简要概述各种音频编解码器。原创 2024-12-30 11:12:12 · 1533 阅读 · 0 评论 -
一文搞懂 RGB 与 YUV
第一个 4 表示每个像素都有一个亮度分量(Y),第二个 4 表示每个像素都有一个 U 色度分量,第三个 4 表示每个像素都有一个 V 色度分量。4:2:0 表示第一个 4 表示每个像素都有一个亮度分量(Y),第二个 2 表示每两个像素共享一个 U 色度分量,第三个 0 表示每四个像素共享一个 V 色度分量(即每两个像素共享一个色度分量)。4:2:2,第一个 4 表示每个像素都有一个亮度分量(Y),第二个 2 表示每两个像素共享一个 U 色度分量,第三个 2 表示每两个像素共享一个 V 色度分量。原创 2024-12-25 09:31:03 · 2835 阅读 · 0 评论 -
V4L2 使用教程
V4L2,全称为 Video for Linux 2,是 Linux 操作系统上的一个内核框架,旨在支持视频设备。V4L2 是 V4L 的第二版,V4L2 修复了一些设计缺陷,并开始出现在 2.5.x 内核中。它提供了一组 API 和驱动接口,使得用户空间应用程序能够与摄像头和电视卡等各种视频设备进行交互。原创 2024-12-18 08:01:07 · 1683 阅读 · 0 评论 -
WebRTC 详解
之前在做智能家居网关项目时,用到 WebRTC 技术,使用 C++ 实现了浏览器可以通过 WebRTC 直接观看摄像头的功能。这里分享下之前记录的 WebRTC 的笔记。2010 年 5 月,谷歌收购了 Global IP Solutions(简称 GIPS),这是一家专注于 VoIP 和视频会议软件的公司,已开发出 RTC 所需的多项关键组件,如编解码器和回声消除技术。谷歌随后将 GIPS 技术开源,并与 IETF 和 W3C 等标准机构合作,以确保行业共识。原创 2024-12-13 17:54:23 · 1385 阅读 · 0 评论
分享