- 博客(158)
- 资源 (97)
- 问答 (7)
- 收藏
- 关注

原创 PPASR流式与非流式语音识别
PPASR是一款基于PaddlePaddle实现的语音识别框架,PPASR致力于简单,实用的语音识别项目。可部署在服务器,Nvidia Jetson设备,未来还计划支持Android等移动设备。
2021-11-30 22:35:20
8119
36
原创 快速训练猫狗声音分类模型
本文章主要介绍如何快速使用声音分类框架训练和推理,本文将致力于最简单的方式去介绍使用,如果使用更进阶功能,还需要从源码去看文档。仅需三行代码即可实现训练和推理。
2025-03-08 12:02:43
345
原创 快速使用PPASR V3版不能语音识别框架
主要介绍如何快速使用PPASR语音识别框架训练和推理,该框架支持多个语音识别模型,包含deepspeech2、conformer、squeezeformer、efficient_conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器,包含ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring、ctc_beam_search等
2025-03-08 11:40:51
439
原创 快速使用MASR V3版不能语音识别框架
主要介绍如何快速使用MASR语音识别框架训练和推理,本文将致力于最简单的方式去介绍使用。该框架支持多个语音识别模型,包含conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器。更多功能等你发现。
2025-03-08 11:34:54
352
原创 基于大语言模型实现文本端点检测
在语音对话识别中,一般使用VAD检测用户时候结束说话,但是这个结束时间长度设置多少合适,这很难抉择,太短了,用户说话慢就容易打断,太长了用户等待时间久。还有常见的情况,用户在说话的时候,中途停顿了一下思考,如果只是使用VAD检测,有可能就会认为说话结束,但是用户还没有说话,这句话也不完整。这种情况可以配合文本端点检测,在使用VAD检测的时候,配合文本端点检测,从而保证用户表达完整。
2025-01-18 14:14:00
769
原创 基于Pytorch实现的说话人日志(说话人分离)
是博主开源的一款声纹识别框架,该框架支持EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,支持AAMLoss、AMLoss、ARMLoss、CELoss等多种损失函数。该框架支持多种关于声纹识别的处理,比如声纹对,比声纹检索,以及本文章需要介绍的说话人日志(说话人分离)。
2024-12-22 12:13:24
725
原创 YeAudio音频工具的介绍和使用
这款Python音频处理工具功能强大,支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作,还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。
2024-08-29 22:26:37
1628
4
原创 Ubuntu22.04使用/etc/rc.local开机启动程序
来开机启动程序,步骤如下,针对Ubuntu20.04或Ubuntu22.04系统都有效。因为在工作中,Ubuntu系统经常使用到开机启动,为了方便之后使用,特此介绍下如何使用。
2024-07-02 22:19:42
1300
原创 夜雨飘零·千问:解答您无尽的疑问
想象一下,只需一键,即可轻松启动功能强大的大语言模型。夜雨飘零·千问启动器就是这样一个神奇的工具,它无需繁琐的环境搭建,内置了多种规格的模型以适应不同的使用场景。更令人惊喜的是,即使你的设备资源有限,也能找到适合的模型,因为最小的0.5B模型仅需1G显存!
2024-04-09 23:33:37
566
原创 鸿蒙应用开发-录音并使用WebSocket实现实时语音识别
录音并实时获取RAW的音频格式数据,利用WebSocket上传数据到服务器,并实时获取语音识别结果,参考文档。是录音工具类,进行录音和获取录音数据。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。还需要一些其他的工具函数。
2024-03-26 22:58:48
1934
8
原创 鸿蒙应用开发-录音保存并播放音频
是录音工具类,进行录音和获取录音数据。格式的音频,然后播放该音频,参考文档。中添加,关于字段说明,也需要在各个的。添加所需要的权限,注意是在。
2024-03-26 22:56:48
1344
8
原创 鸿蒙应用开发-仿微信聊天对话对话信息列表
编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。仿微信聊天对话对话信息列表,显示发送文本和接收文本,参考文档。
2024-01-19 19:35:08
918
原创 鸿蒙应用开发-请求语音合成服务获取音频文件
请求语音合成服务,通过上传语音合成文本,返回音频数据,并保存到本地。这里要说明一下,由于`HttpResponse`接口给问题,服务的响应类型必须是`application/octet-stream`,才能正确获取音频数据并保存,接口文档:[HttpResponse]
2024-01-18 19:47:31
608
原创 轻松识别几个小时的长音视频文件
之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。而且识别结果中,可以包含每句话的开始时间和结束时间,可以用来做字幕等等。
2024-01-07 13:28:05
927
原创 实时指令唤醒
本文将介绍一个实时指令唤醒的程序,可以添加任意的指令,实时录音一旦检测到指令语音,激活程序。同时还支持指令微调、提高指令的准确率。
2023-12-17 15:36:39
1404
1
原创 语音指令控制坦克大战
本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序,用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。
2023-12-17 13:07:59
621
原创 一键运行大语言模型服务,搭建聊天应用
本文介绍一个可以快速搭建本地大语言模型的聊天服务,模型和代码已全部提供,不需要联网运行。项目使用的是Qwen-7B-Int4模型,只需要8G显存的显卡都能流畅运行,无论是Windows还是Linux系统都支持使用。
2023-10-23 20:46:29
498
原创 轻松快速搭建一个本地的语音合成服务
本文将介绍一个可以快速搭建本地语音合成的服务,模型和代码已全部提供,不需要联网运行。项目使用的是VITS模型结构,能够很轻松地启动服务。
2023-10-22 13:59:16
645
原创 识别准确率竟如此高,实时语音识别服务
本文将介绍一个准确率非常高的语音识别框架,那就是FunASR,这个框架的模型训练数据超过几万个小时,经过测试,准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别,一边说话一边出结果。
2023-10-21 21:56:04
2174
原创 FunASR语音识别GUI界面应用
本文将介绍一个基于FunASR开发的语音识别界面应用,这个应用可以选择本地音频,也可以录音识别。支持多种音频格式和视频格式,可以对识别的结果加上时间戳做成字幕。
2023-10-08 18:46:12
1593
原创 基于PaddlePaddle实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支
2023-08-20 23:08:54
1849
原创 基于Pytorch实现的声纹识别系统
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接,除此之外,还支
2023-08-20 23:05:12
6532
5
原创 微调Whisper语音识别模型和加速推理
OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调,目前开源了好几个模型,具体可以在openai查看,下面列出了常用的几个模型。另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。
2023-04-23 22:41:07
10505
12
原创 使用VAD将长语音分割的多段短语音
今天来介绍一个VAD的工具,VAD(Voice Activity Detection)语音活动检测,是可以把一段长语音以静音位置把语音分割成多段短语音,常见的就用WebRTC VAD工具,目前很多项目都是用这个工具,但是今天作者介绍的是另一个工具,这个工具是[YeAudio](https://github.com/yeyupiaoling/YeAudio)的一个小功能,这个功能是基于深度学习实现的。
2022-11-23 20:30:00
3188
原创 基于PaddlePaddle训练中文标点符号模型
本想是基于[PaddleSpeech](https://github.com/paddlepaddle/PaddleSpeech)开发的中文标点符号模型,默认使用的预训练模型为`ernie-3.0-medium-zh`。该模型可以用于语音识别结果添加标点符号,使用案例[PPASR](https://github.com/yeyupiaoling/PPASR)。
2022-09-14 19:34:00
4030
7
原创 基于Pytorch实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。
2022-07-07 21:28:08
10115
12
原创 使用PaddlePaddle轻松实现语音合成
使用PaddlePaddle轻松实现语音合成,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
2022-07-06 21:04:43
2726
1
原创 使用PaddlePaddle搭建一个可以识别数千中动物
使用PaddlePaddle实现的数千种动物识别,提供了简单的示例代码,GUI界面操作,还有Flask的Web接口,可以给Android调用。
2022-07-06 19:56:03
1184
原创 基于PaddlePaddle实现的语音情感识别
本项目是一个语音情感识别项目,目前效果一般,供大家学习使用。后面会持续优化,提高准确率,如果同学们有好的建议,也欢迎来探讨。
2022-07-06 18:00:46
1416
2
原创 基于Pytorch实现的EcapaTdnn声纹识别模型
前言本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余弦间隔在对角度的影响更加直接。源码地址:VoiceprintRecognition-Pytorch使用
2022-05-04 15:56:46
8321
39
原创 基于PaddlePaddle实现的EcapaTdnn声纹识别模型
本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m
2022-05-01 22:29:11
3368
原创 给语音识别文本加上标点符号
在语音识别中,模型输出的结果只是单纯的文本结果,并没有根据语法添加标点符号,本教程就是针对这种情况,在语音识别文本中根据语法情况加入标点符号,使得语音识别系统能够输出在标点符号的最终结果。
2022-01-13 15:29:47
12908
25
原创 WenetSpeech数据集的处理和使用
WenetSpeech数据集包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。
2021-11-30 20:43:06
8177
7
原创 基于PaddlePaddle实现的快速人脸识别模型
前言本项目参考了ArcFace的损失函数,同时参考了PP-OCRv2模型结构,意在开发一个模型较小,但识别准确率较高且推理速度快的一种人脸识别项目,该项目训练数据使用emore数据集,一共有85742个人,共5822653张图片,使用lfw-align-128数据集作为测试数据。源码地址:https://github.com/yeyupiaoling/PaddlePaddle-MobileFaceNets数据集准备本项目提供了标注文件,存放在dataset目录下,解压即可。另外需要下载下面这两个数据
2021-11-03 15:32:48
3707
17
原创 基于Pytorch实现的快速人脸识别模型
MobileFaceNet本项目参考了ArcFace的损失函数结合MobileNet,意在开发一个模型较小,但识别准确率较高且推理速度快的一种人脸识别项目,该项目训练数据使用emore数据集,一共有85742个人,共5822653张图片,使用lfw-align-128数据集作为测试数据。源码地址:https://github.com/yeyupiaoling/Pytorch-MobileFaceNet数据集准备本项目提供了标注文件,存放在dataset目录下,解压即可。另外需要下载下面这两个数据集,
2021-11-03 15:25:39
6426
40
原创 PPASR语音识别(进阶级)
PPASR(进阶级)基于PaddlePaddle2实现的端到端自动语音识别,相比入门级,进阶级从三个方面来提高模型的准确率,首先最主要的是更换了模型,这次采用了DeepSpeech2模型,DeepSpeech2是2015年百度发布的语音识别模型,其论文为[《Baidu’s Deep Speech 2 paper》](http://proceedings.mlr.press/v48/amodei16.pdf) 。然后也修改了音频的预处理,这次使用了在语音识别上更好的预处理,通过用FFT energy计算线性谱
2021-09-18 09:36:29
1719
4
PPASR的V2版本Conformer训练超大数据集
2022-11-11
PPASR的V2版本DeepSpeech2模型文件
2022-11-08
PPASR的V2版本Conformer模型文件
2022-11-08
PaddlePaddle实现的EcapaTdnn声纹识别超大数据melspectrogram
2022-11-08
PaddlePaddle实现的EcapaTdnn声纹识别超大数据(spectrogram)
2022-11-08
Pytorch实现的EcapaTdnn声纹识别超大数据模型(melspectrogram)
2022-11-08
Pytorch训练EcapaTdnn声纹识别超大数据模型(spectrogram)
2022-11-08
三个标点符号的标点符号模型
2022-09-15
基于PaddlePaddle实现的语音合成工具
2022-06-27
基于深度学习框架ONNX的人脸识别系统
2022-06-24
基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-07
基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-06
基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)
2022-05-04
基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-05-03
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-02
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-01
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)
2022-04-26
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-04-25
PPASR流式与非流式语音识别模型(LibriSpeech数据集)
2022-01-26
对语音识别结果加上标点符号模型
2022-01-13
Pytorch实现的流式与非流式语音识别模型(数据集:free_st_chinese_mandarin_corpus)
2021-12-26
Pytorch实现的流式与非流式语音识别模型(数据集:thchs30)
2021-12-26
Pytorch实现的流式与非流式语音识别模型(数据集:AIShell)
2021-12-26
基于PaddlePaddle声纹识别模型全部模型参数文件
2023-08-28
基于Pytorch声纹识别模型全部模型参数文件
2023-08-28
基于PaddlePaddle声纹识别模型EcapaTdnn全部模型参数文件
2023-08-11
基于Pytorch声纹识别模型EcapaTdnn全部模型参数文件
2023-08-11
MASR的V2版本Conformer训练超大数据集
2023-01-29
3000+小时的中文普通话语音数据集
2022-11-14
自定义中文语料约2千万条数据
2022-11-14
基于Pytorch实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-07
基于Pytorch实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-06
基于Pytorch实现的EcapaTdnn声纹识别模型(spectrogram)
2022-05-04
基于Pytorch实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-05-03
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(spectrogram)
2022-05-02
基于PaddlePaddle实现的EcapaTdnn声纹识别大模型(melspectrogram)
2022-05-01
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(spectrogram)
2022-04-26
基于PaddlePaddle实现的EcapaTdnn声纹识别模型(melspectrogram)
2022-04-25
WeNet中的Fbank有没有对齐的Python版本?
2021-11-29
请问wave.open读取的流怎把它转换为跟soundfile一样的numpy结果呢?
2021-10-29
中英文混合端到端语音识别模型
2021-10-17
在Android上如果对音频做快速傅里叶变换
2021-09-28
Android如何不预览从摄像头中获取视频帧?
2019-04-15
在paddlepaddle中的book里“识别数字”如何引用其他训练数据
2017-10-25
Android新版本模拟器要输入密码问题
2017-06-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人