音视频处理
文章平均质量分 94
介绍音视频处理的常用工具以及应用场景
源启智能
浙江大学研究生,专注于后端技术架构和人工智能算法的研究,具有多年大厂工作经验。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多进程并行处理中FFMpeg子进程挂起导致整个任务阻塞问题解决
在 Python 中,subprocess 模块为程序员提供了与操作系统命令进行交互的桥梁。无论是执行简单的 shell 命令,还是管理复杂的外部进程,subprocess 都能很好地完成任务。通过 subprocess,Python 脚本可以启动新的应用程序,与其输入/输出/错误管道建立连接,并获取其返回值,这对于实现自动化任务和系统集成至关重要。原创 2024-08-23 18:39:02 · 2355 阅读 · 0 评论 -
centos下ffmpeg版本升级到6.1.1 并添加 libx264库
FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止,FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg(FastForward Mpeg)是一款遵循GPL的开源软件,在音视频处理方面表现十分优秀,几乎囊括了现存所有的视音频格式的编码,解码、转码、混合、过滤及播放。作为最受欢迎的视频和图像处理软件,它被来自各行各业的不同公司所广泛使用。同时也是一款跨平台的软件,完美兼容Linux、Windows、Mac OSX等平台。原创 2024-07-09 18:52:38 · 2214 阅读 · 0 评论 -
使用ffmpeg提取视频中的音频并保存为单声道wav
FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止,FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg(FastForward Mpeg)是一款遵循GPL的开源软件,在音视频处理方面表现十分优秀,几乎囊括了现存所有的视音频格式的编码,解码、转码、混合、过滤及播放。原创 2024-03-08 17:52:04 · 4179 阅读 · 0 评论 -
使用ffmpeg实现视频片段截取并保持清晰度
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库原创 2024-02-23 12:10:32 · 2711 阅读 · 0 评论 -
开源而强大的视频下载利器:youtube-dl
youtube-dl 是一款基于 Python 的小型命令行工具,允许从 YouTube、Dailymotion、Google Video、Photobucket、Facebook、Yahoo、Metacafe、Depositfiles、Bilibili 和类似网站下载视频。 它是用 pygtk 编写的,需要 Python 解释器来运行,它不受平台限制,可以在任何 GNU/Linux、Windows 或 macOS 系统上运行。原创 2024-02-01 19:26:50 · 5025 阅读 · 0 评论 -
VAD语音分割算法详解
Voice Activity Detection (VAD) 在语音信号处理中,例如语音增强,语音识别等领域有着非常重要的作用。它的作用是从一段语音(纯净或带噪)信号中标识出语音片段与非语音片段。VAD系统通常包括两个部分,特征提取和语音/非语音判决;原创 2024-01-24 11:58:01 · 12656 阅读 · 1 评论 -
使用ffmpeg调整视频中音频采样率及声道
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库原创 2024-01-22 17:35:58 · 3400 阅读 · 0 评论 -
OpenAI的人工智能语音识别模型Whisper详解及使用
拥有ChatGPT语言模型的OpenAI公司,开源了 Whisper 自动语音识别系统,OpenAI 强调 Whisper 的语音识别能力已达到人类水准。Whisper是一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性。Whisper还可以进行多语言语音识别、语音翻译和语言识别等任务。原创 2023-06-05 22:19:00 · 58006 阅读 · 7 评论 -
视频处理关键知识
I帧或关键帧或帧内帧(I-frame or Key-Frame or Intra-frame)仅由帧内预测的宏块组成。I帧中的每个宏块只能在同一帧内匹配其他宏块,这意味着,它只能利用帧内“空间冗余”来进行压缩。空间冗余是一个术语,用来指单个帧的像素之间的相似性。I帧在不同的视频编解码器中以不同的形式出现,如IDR、CRA或者BLA。这些不同类型的I帧本质相同:都不存在时域预测。原创 2024-01-19 20:25:04 · 2101 阅读 · 0 评论 -
音视频同步
声卡和显卡均是以一帧数据来作为播放单位,如果单纯依赖帧率及采样率来进行播放,在理想条件下,应该是同步的,不会出现偏差。但实际情况,往往不同步。原创 2024-01-17 15:49:50 · 1894 阅读 · 0 评论 -
Python音频处理利器:pydub详解
pydub是Python的一个音频处理库,可以处理各种音频格式,如mp3、wav、flv等等。它是一个轻量级、快速且易于使用的库。silence库是pydub的一个扩展库,可以在音频文件中根据静默部分进行分割,非常方便。原创 2024-01-16 18:38:22 · 8950 阅读 · 0 评论 -
使用ffmpeg进行视频截取
ffmpeg在使用-c:v copy对原视频码流进行直接截取时,并不是按照指定时间截取的,而是从指定时间附近的I帧开始截取和终止。原创 2024-01-15 17:46:15 · 2858 阅读 · 0 评论 -
Whisper: openAI开源准确率最高的通用语言语音识别
我们研究了仅通过预测大量互联网音频录音的语音处理系统的能力。当扩大到68万小时的多语言和多任务监督时,生成的模型可以很好地泛化到标准基准,而且通常可以与之前的全监督结果相竞争,但在zero-shot识别设置中,无需进行任何微调。与人类相比,这些模型接近他们的准确性和鲁棒性。我们正在发布模型和推理代码,以便为进一步的鲁棒性语音处理工作提供基础。原创 2024-01-13 09:56:16 · 3371 阅读 · 0 评论 -
使用ffmpeg实现音频静音修剪
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库,结构图如下:原创 2024-01-11 11:50:33 · 3861 阅读 · 0 评论 -
使用ffmpeg对视频进行静音检测
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库原创 2024-01-09 17:28:44 · 3653 阅读 · 0 评论 -
使用ffmpeg实现视频裁剪并保持清高晰度
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库。原创 2024-01-02 14:24:53 · 2293 阅读 · 0 评论 -
使用ffmpeg调整视频分辨率/帧率并保持高清晰度
ffmpeg在音视频处理方面表现十分优秀,几乎囊括了现存所有的视音频格式的编码,解码、转码、混合、过滤及播放。作为最受欢迎的视频和图像处理软件,它被来自各行各业的不同公司所广泛使用。原创 2023-12-29 17:22:57 · 20017 阅读 · 0 评论 -
基于OpenAI的Whisper构建的高效语音识别模型:faster-whisper
faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理大规模语音数据时更加高效。原创 2023-12-29 17:21:49 · 16342 阅读 · 21 评论 -
使用ffmpeg实现视频旋转并保持清晰度不变
本文基于ffmpeg工具实现视频的旋转处理,在旋转的同时,保持视频的清晰度。原创 2023-12-26 20:01:11 · 5245 阅读 · 4 评论 -
win10安装ffmpeg
Ffmpeg 应该是 FFmpeg 工具集中最核心的利器,支持多种多样的编码器、解码器、封装格式、滤镜功能。FFmpeg框架的基本组成包含AVFormat、AVCodec、AVFilter、AVDevice、AVUtil等模块库原创 2023-12-26 13:08:53 · 2409 阅读 · 0 评论 -
使用ffmpeg命令进行视频格式转换
FFmpeg 是一个非常强大和灵活的开源工具集,用于处理音频和视频文件。它提供了一系列的工具和库,可以用于录制、转换、流式传输和播放音频和视频。原创 2023-12-13 12:03:34 · 5359 阅读 · 0 评论 -
视频处理关键知识
随着技术的不断进步,视频技术的制作加工门槛逐渐降低,信息资源的不断增长,同时由于视频信息内容更加丰富完整的先天优势,在近年来已经逐渐成为主流。原创 2023-12-04 23:47:25 · 3357 阅读 · 1 评论 -
音频处理关键知识点
音频信号(audio signals)是表示机械波的信号,是机械波的波长、强度变化的信息载体。根据机械波的特征,可分为规则信号和不规则信号。其中规则信号又可以分为音乐等。规则信号是一种连续变化的模拟信号,可用一条连续的曲线来表示。原创 2023-12-03 23:18:05 · 2306 阅读 · 0 评论 -
语音信号处理:librosa
Librosa是一个用于音频和音乐分析的Python库,专为音乐信息检索(Music Information Retrieval,MIR)社区设计。自从2015年首次发布以来,Librosa已成为音频分析和处理领域中最受欢迎的工具之一。它提供了一套清晰、高效的函数来处理音频信号,并提取音乐和音频中的信息。原创 2023-11-30 19:59:21 · 8466 阅读 · 1 评论 -
语音特征提取: 梅尔频谱(Mel-spectrogram)与梅尔倒频系数(MFCCS)
在音频处理和语音识别领域,Mel频谱(Mel-spectrogram)和梅尔频率倒谱系数(MFCC)都是常用的特征表示方法。两者都广泛应用,但在不同的应用场景中各有优势。原创 2023-11-20 20:12:46 · 18568 阅读 · 1 评论 -
FFmpeg视频转码关键参数详解
帧率(frame per second)就是视频每秒播放的图片的帧数。帧率主要分为两类,一种是交错的(interlaced 缩写为i),一种是步进的(progressive 缩写为p)。取值范围是 0 到 51,这其中越低的值,结果质量越好,同时输出文件越大,越高的值意味着越高的压缩比,但可能会在值大到某个点的时候注意到明显的质量损失。在设置输出视频的帧率时,需要使用-r选项。使用50HZ电子频率国家中的电视电影节目的标准帧率,因为25p的帧率很容易转换成50i的帧率。CRF数值 +6 会使文件大小减半。原创 2023-06-26 17:15:04 · 7679 阅读 · 0 评论 -
FFmpeg音视频处理详解及实战
FFmpeg项目由 Fabrice Bellard在2000年创立。到目前为止,FFmpeg项目的开发者仍然与VLC、MPV、dav1d、x264等多媒体开源项目有着广泛的重叠。Ffmpeg(FastForward Mpeg)是一款遵循GPL的开源软件,在音视频处理方面表现十分优秀,几乎囊括了现存所有的视音频格式的编码,解码、转码、混合、过滤及播放。作为最受欢迎的视频和图像处理软件,它被来自各行各业的不同公司所广泛使用。同时也是一款跨平台的软件,完美兼容Linux、Windows、Mac OSX等平台。原创 2023-06-10 23:33:07 · 3519 阅读 · 0 评论
分享