
语音
文章平均质量分 84
该专栏包括语音识别,声纹识别等语音相关的深度学习文章
夜雨飘零1
他朝若是同淋雪,此生也算共白头!
展开
-
快速使用PPASR V3版部署语音识别框架
主要介绍如何快速使用PPASR语音识别框架训练和推理,该框架支持多个语音识别模型,包含deepspeech2、conformer、squeezeformer、efficient_conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器,包含ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring、ctc_beam_search等原创 2025-03-08 11:40:51 · 441 阅读 · 0 评论 -
快速使用MASR V3版部署语音识别框架
主要介绍如何快速使用MASR语音识别框架训练和推理,本文将致力于最简单的方式去介绍使用。该框架支持多个语音识别模型,包含conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器。更多功能等你发现。原创 2025-03-08 11:34:54 · 354 阅读 · 0 评论 -
基于Pytorch实现的说话人日志(说话人分离)
是博主开源的一款声纹识别框架,该框架支持EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,支持AAMLoss、AMLoss、ARMLoss、CELoss等多种损失函数。该框架支持多种关于声纹识别的处理,比如声纹对,比声纹检索,以及本文章需要介绍的说话人日志(说话人分离)。原创 2024-12-22 12:13:24 · 725 阅读 · 0 评论 -
YeAudio音频工具的介绍和使用
这款Python音频处理工具功能强大,支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作,还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。原创 2024-08-29 22:26:37 · 1629 阅读 · 3 评论 -
轻松识别几个小时的长音视频文件
之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。而且识别结果中,可以包含每句话的开始时间和结束时间,可以用来做字幕等等。原创 2024-01-07 13:28:05 · 931 阅读 · 0 评论 -
实时指令唤醒
本文将介绍一个实时指令唤醒的程序,可以添加任意的指令,实时录音一旦检测到指令语音,激活程序。同时还支持指令微调、提高指令的准确率。原创 2023-12-17 15:36:39 · 1406 阅读 · 0 评论 -
语音指令控制坦克大战
本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。原创 2023-12-17 13:07:59 · 621 阅读 · 0 评论 -
轻松快速搭建一个本地的语音合成服务
本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。原创 2023-10-22 13:59:16 · 645 阅读 · 0 评论 -
识别准确率竟如此高,实时语音识别服务
本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。原创 2023-10-21 21:56:04 · 2175 阅读 · 0 评论 -
FunASR语音识别GUI界面应用
本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。原创 2023-10-08 18:46:12 · 1597 阅读 · 0 评论 -
基于Pytorch实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支原创 2023-08-20 23:05:12 · 6537 阅读 · 5 评论 -
基于PaddlePaddle实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支原创 2023-08-20 23:08:54 · 1849 阅读 · 0 评论 -
微调Whisper语音识别模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。原创 2023-04-23 22:41:07 · 10509 阅读 · 12 评论 -
使用VAD将长语音分割的多段短语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是[YeAudio](https://github.com/yeyupiaoling/YeAudio)的一个小功能,这个功能是基于深度学习实现的。原创 2022-11-23 20:30:00 · 3192 阅读 · 0 评论 -
基于Pytorch实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。原创 2022-07-07 21:28:08 · 10123 阅读 · 12 评论 -
使用PaddlePaddle轻松实现语音合成
使用PaddlePaddle轻松实现语音合成,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。原创 2022-07-06 21:04:43 · 2727 阅读 · 1 评论 -
基于PaddlePaddle实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。原创 2022-07-06 18:00:46 · 1417 阅读 · 2 评论 -
基于Pytorch实现的EcapaTdnn声纹识别模型
前言本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。源码地址:VoiceprintRecognition-Pytorch使用原创 2022-05-04 15:56:46 · 8324 阅读 · 38 评论 -
基于PaddlePaddle实现的EcapaTdnn声纹识别模型
本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m原创 2022-05-01 22:29:11 · 3368 阅读 · 0 评论 -
PPASR流式与非流式语音识别
PPASR是一款基于PaddlePaddle实现的语音识别框架,PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。原创 2021-11-30 22:35:20 · 8119 阅读 · 35 评论 -
WenetSpeech数据集的处理和使用
WenetSpeech数据集包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。原创 2021-11-30 20:43:06 · 8177 阅读 · 6 评论 -
基于Tensorflow实现声音分类
环境准备主要介绍libsora,PyAudio,pydub的安装,其他的依赖包根据需要自行安装。安装libsora最简单的方式就是使用pip命令安装,如下:pip install pytest-runnerpip install librosa如果pip命令安装不成功,那就使用源码安装,下载源码:https://github.com/librosa/librosa/releases/...原创 2020-04-23 22:58:27 · 9665 阅读 · 96 评论 -
基于Pytorch实现的声音分类
本项目是基于Pytorch的声音分类项目,旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型,如EcapaTdnn、PANNS、ResNetSE、CAMPPlus和ERes2Net,以支持不同的应用场景。此外,项目还提供了常用的Urbansound8K数据集测试报告和一些方言数据集的下载和使用例子。用户可以根据自己的需求选择适合的模型和数据集,以实现更准确的声音分类。项目的应用场景广泛,可以用于室外的环境监测、野生动物保护、语音识别等领域。同时,项目也鼓励用户探索更多的使用场景,以推动原创 2021-08-20 20:12:48 · 33806 阅读 · 189 评论 -
PPASR语音识别(进阶级)
PPASR(进阶级)基于PaddlePaddle2实现的端到端自动语音识别,相比入门级,进阶级从三个方面来提高模型的准确率,首先最主要的是更换了模型,这次采用了DeepSpeech2模型,DeepSpeech2是2015年百度发布的语音识别模型,其论文为[《Baidu’s Deep Speech 2 paper》](http://proceedings.mlr.press/v48/amodei16.pdf) 。然后也修改了音频的预处理,这次使用了在语音识别上更好的预处理,通过用FFT energy计算线性谱原创 2021-09-18 09:36:29 · 1719 阅读 · 3 评论 -
PPASR中文语音识别(入门级)
PPASR语音识别(入门级)本项目将分三个阶段分支,分别是入门级、进阶级和应用级分支,当前为入门级,随着级别的提升,识别准确率也随之提升,也更适合实际项目使用,敬请关注!PPASR基于PaddlePaddle2实现的端到端自动语音识别,本项目最大的特点简单,在保证准确率不低的情况下,项目尽量做得浅显易懂,能够让每个想入门语音识别的开发者都能够轻松上手。PPASR只使用卷积神经网络,无其他特殊网络结构,模型简单易懂,且是端到端的,不需要音频对齐,因为本项目使用了CTC Loss作为损失函数。在传统的语音识原创 2021-03-16 20:55:39 · 3756 阅读 · 0 评论 -
基于Pytorch实现的流式与非流式语音识别
MASR是一款基于Pytorch实现的语音识别框架,MASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。原创 2020-07-30 14:49:44 · 7981 阅读 · 14 评论 -
基于Tensorflow2实现的中文声纹识别
前言本章介绍如何使用Tensorflow实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》 。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。不同的是本项目使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更原创 2021-07-06 21:20:59 · 2599 阅读 · 22 评论 -
基于Pytorch实现的声纹识别模型
本章介绍如何使用Pytorch实现简单的声纹识别模型,本项目参考了人脸识别项目的做法Pytorch-MobileFaceNet,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。原创 2021-07-06 16:53:36 · 21670 阅读 · 65 评论 -
基于Kersa实现的中文语音声纹识别
本项目是基于VGG-Speaker-Recognition开发的,本项目主要是用于声纹识别,也有人称为说话人识别。本项目包括了自定义数据集的训练,声纹对比,和声纹识别。原创 2020-07-15 09:47:29 · 2249 阅读 · 10 评论 -
Android使用webrtc实现检测用户是否在说话
我们在Android应用做语音识别的时候,一般是用户唤醒之后开始说话。当用户超过一定的时候没有说话,就停止录音,并把录音发送到语音识别服务器,获取语音识别结果。本教程就是解决如何检测用户是否停止说话,我们使用的是WebRTC架构的源代码中的vad代码实现的。原创 2020-04-16 11:14:01 · 3630 阅读 · 16 评论 -
基于PaddlePaddle实现声音分类
本项目是基于PaddlePaddle的声音分类项目,旨在实现对各种环境声音、动物叫声和语种的识别。项目提供了多种声音分类模型,如EcapaTdnn、PANNS、ResNetSE、CAMPPlus和ERes2Net,以支持不同的应用场景。此外,项目还提供了常用的Urbansound8K数据集测试报告和一些方言数据集的下载和使用例子。用户可以根据自己的需求选择适合的模型和数据集,以实现更准确的声音分类。项目的应用场景广泛,可以用于室外的环境监测、野生动物保护、语音识别等领域。同时,项目也鼓励用户探索更多的使用场原创 2020-04-27 23:00:17 · 3825 阅读 · 9 评论 -
使用Tensorflow实现声纹识别
本章介绍如何使用Tensorflow实现简单的声纹识别模型,首先你需要熟悉音频分类,没有了解的可以查看这篇文章《基于Tensorflow实现声音分类》。基于这个知识基础之上,我们训练一个声纹识别模型,通过这个模型我们可以识别说话的人是谁,可以应用在一些需要音频验证的项目。原创 2020-05-04 13:18:09 · 9705 阅读 · 33 评论 -
基于PaddlePaddle实现声纹识别
本章介绍如何使用PaddlePaddle实现简单的声纹识别模型,本项目参考了人脸识别项目的做法PaddlePaddle-MobileFaceNet ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。原创 2020-05-05 12:27:35 · 3481 阅读 · 6 评论 -
基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型
本项目是基于PaddlePaddle的[DeepSpeech](https://github.com/PaddlePaddle/DeepSpeech) 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。DeepSpeech2是基于PaddlePaddle实现的端到端自动语音识别(ASR)引擎,其论文为[《Baidu's Deep Speech 2 paper》](http://proceedings.mlr.press/v48/amodei16.pdf) ,本项目同时还支持各种数据原创 2019-11-04 20:00:52 · 18957 阅读 · 93 评论