夜雨飘零1-优快云博客

原创 PPASR流式与非流式语音识别

PPASR是一款基于PaddlePaddle实现的语音识别框架，PPASR致力于简单，实用的语音识别项目。可部署在服务器，Nvidia Jetson设备，未来还计划支持Android等移动设备。

2021-11-30 22:35:20 8119 36

原创快速训练猫狗声音分类模型

本文章主要介绍如何快速使用声音分类框架训练和推理，本文将致力于最简单的方式去介绍使用，如果使用更进阶功能，还需要从源码去看文档。仅需三行代码即可实现训练和推理。

2025-03-08 12:02:43 345

主要介绍如何快速使用PPASR语音识别框架训练和推理，该框架支持多个语音识别模型，包含deepspeech2、conformer、squeezeformer、efficient_conformer等，每个模型都支持流式识别和非流式识别，以及多种解码器，包含ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring、ctc_beam_search等

2025-03-08 11:40:51 439

原创快速使用MASR V3版不能语音识别框架

主要介绍如何快速使用MASR语音识别框架训练和推理，本文将致力于最简单的方式去介绍使用。该框架支持多个语音识别模型，包含conformer等，每个模型都支持流式识别和非流式识别，以及多种解码器。更多功能等你发现。

2025-03-08 11:34:54 352

原创基于大语言模型实现文本端点检测

在语音对话识别中，一般使用VAD检测用户时候结束说话，但是这个结束时间长度设置多少合适，这很难抉择，太短了，用户说话慢就容易打断，太长了用户等待时间久。还有常见的情况，用户在说话的时候，中途停顿了一下思考，如果只是使用VAD检测，有可能就会认为说话结束，但是用户还没有说话，这句话也不完整。这种情况可以配合文本端点检测，在使用VAD检测的时候，配合文本端点检测，从而保证用户表达完整。

2025-01-18 14:14:00 769

原创基于Pytorch实现的说话人日志（说话人分离）

是博主开源的一款声纹识别框架，该框架支持EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，支持AAMLoss、AMLoss、ARMLoss、CELoss等多种损失函数。该框架支持多种关于声纹识别的处理，比如声纹对，比声纹检索，以及本文章需要介绍的说话人日志（说话人分离）。

2024-12-22 12:13:24 725

原创 YeAudio音频工具的介绍和使用

这款Python音频处理工具功能强大，支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作，还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。

2024-08-29 22:26:37 1628 4

原创 Ubuntu安装Docker并支持使用GPU

因为Docker官方的网站无法访问，这里提供阿里镜像安装方式，并提供支持英伟达GPU方式。

2024-08-29 11:35:16 1273

原创 Ubuntu22.04使用/etc/rc.local开机启动程序

来开机启动程序，步骤如下，针对Ubuntu20.04或Ubuntu22.04系统都有效。因为在工作中，Ubuntu系统经常使用到开机启动，为了方便之后使用，特此介绍下如何使用。

2024-07-02 22:19:42 1300

原创夜雨飘零·千问：解答您无尽的疑问

想象一下，只需一键，即可轻松启动功能强大的大语言模型。夜雨飘零·千问启动器就是这样一个神奇的工具，它无需繁琐的环境搭建，内置了多种规格的模型以适应不同的使用场景。更令人惊喜的是，即使你的设备资源有限，也能找到适合的模型，因为最小的0.5B模型仅需1G显存！

2024-04-09 23:33:37 566

原创鸿蒙应用开发-录音并使用WebSocket实现实时语音识别

录音并实时获取RAW的音频格式数据，利用WebSocket上传数据到服务器，并实时获取语音识别结果，参考文档。是录音工具类，进行录音和获取录音数据。中添加，关于字段说明，也需要在各个的。添加所需要的权限，注意是在。还需要一些其他的工具函数。

2024-03-26 22:58:48 1934 8

原创鸿蒙应用开发-录音保存并播放音频

是录音工具类，进行录音和获取录音数据。格式的音频，然后播放该音频，参考文档。中添加，关于字段说明，也需要在各个的。添加所需要的权限，注意是在。

2024-03-26 22:56:48 1344 8

原创鸿蒙应用开发-自定义可删除列表弹窗

自定义列表弹窗，可以对弹窗的列表点击删除，参考文档。

2024-02-03 20:10:55 549

原创鸿蒙应用开发-仿微信聊天对话对话信息列表

编写的是对列表的操作，如添加数据、获取列表大小，通过操作这个对象，控制列表显示。仿微信聊天对话对话信息列表，显示发送文本和接收文本，参考文档。

2024-01-19 19:35:08 918

原创鸿蒙应用开发-发送POST请求并获取结果

发送POST请求，上传数据到服务器并获取结果，参考文档。

2024-01-19 19:32:32 2527 2

原创鸿蒙应用开发-播放本地音频文件

播音音频，提高音频文件路径，播放音频。参考文档[使用AVPlayer开发音频播放功能]

2024-01-18 19:49:30 2200 10

原创鸿蒙应用开发-请求语音合成服务获取音频文件

请求语音合成服务，通过上传语音合成文本，返回音频数据，并保存到本地。这里要说明一下，由于`HttpResponse`接口给问题，服务的响应类型必须是`application/octet-stream`，才能正确获取音频数据并保存，接口文档：[HttpResponse]

2024-01-18 19:47:31 608

原创轻松识别几个小时的长音视频文件

之前的文章绍一个准确率非常高的语音识别框架，但那个只能识别实时的短音频，如果想要识别一个非常长的音频，几十分钟，甚至几个小时，那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务，可以把任意长度的音视频到识别结果。而且识别结果中，可以包含每句话的开始时间和结束时间，可以用来做字幕等等。

2024-01-07 13:28:05 927

原创实时指令唤醒

本文将介绍一个实时指令唤醒的程序，可以添加任意的指令，实时录音一旦检测到指令语音，激活程序。同时还支持指令微调、提高指令的准确率。

2023-12-17 15:36:39 1404 1

原创语音指令控制坦克大战

本文将介绍一个可以通过语音指令来控制坦克大战游戏的程序，用户只需要添加几个疾病区然后控制坦克进行向上、向下、向左、向右、开火、停止等操作。同时还支持指令微调、提高指令的准确率。

2023-12-17 13:07:59 621

原创一键运行大语言模型服务，搭建聊天应用

本文介绍一个可以快速搭建本地大语言模型的聊天服务，模型和代码已全部提供，不需要联网运行。项目使用的是Qwen-7B-Int4模型，只需要8G显存的显卡都能流畅运行，无论是Windows还是Linux系统都支持使用。

2023-10-23 20:46:29 498

原创轻松快速搭建一个本地的语音合成服务

本文将介绍一个可以快速搭建本地语音合成的服务，模型和代码已全部提供，不需要联网运行。项目使用的是VITS模型结构，能够很轻松地启动服务。

2023-10-22 13:59:16 645

原创识别准确率竟如此高，实时语音识别服务

本文将介绍一个准确率非常高的语音识别框架，那就是FunASR，这个框架的模型训练数据超过几万个小时，经过测试，准确率非常高。本文将介绍如何启动WebSocket服务和Android调用这个服务来实时识别，一边说话一边出结果。

2023-10-21 21:56:04 2174

原创 FunASR语音识别GUI界面应用

本文将介绍一个基于FunASR开发的语音识别界面应用，这个应用可以选择本地音频，也可以录音识别。支持多种音频格式和视频格式，可以对识别的结果加上时间戳做成字幕。

2023-10-08 18:46:12 1593

原创基于PaddlePaddle实现的声纹识别系统

本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，不排除以后会支持更多模型，同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对应项目中的AAMLoss，对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接，除此之外，还支

2023-08-20 23:08:54 1849

原创基于Pytorch实现的声纹识别系统

2023-08-20 23:05:12 6532 5

原创微调Whisper语音识别模型和加速推理

OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目，且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文。本项目主要的目的是为了对Whisper模型使用Lora进行微调，目前开源了好几个模型，具体可以在openai查看，下面列出了常用的几个模型。另外项目最后还对语音识别加速推理，使用了CTranslate2加速推理，提示一下，加速推理支持直接使用Whisper原模型转换，并不一定需要微调。

2023-04-23 22:41:07 10505 12

原创使用VAD将长语音分割的多段短语音

今天来介绍一个VAD的工具，VAD（Voice Activity Detection）语音活动检测，是可以把一段长语音以静音位置把语音分割成多段短语音，常见的就用WebRTC VAD工具，目前很多项目都是用这个工具，但是今天作者介绍的是另一个工具，这个工具是[YeAudio](https://github.com/yeyupiaoling/YeAudio)的一个小功能，这个功能是基于深度学习实现的。

2022-11-23 20:30:00 3188

原创基于PaddlePaddle训练中文标点符号模型

本想是基于[PaddleSpeech](https://github.com/paddlepaddle/PaddleSpeech)开发的中文标点符号模型，默认使用的预训练模型为`ernie-3.0-medium-zh`。该模型可以用于语音识别结果添加标点符号，使用案例[PPASR](https://github.com/yeyupiaoling/PPASR)。

2022-09-14 19:34:00 4030 7

原创基于Pytorch实现的语音情感识别

本项目是一个语音情感识别项目，目前效果一般，供大家学习使用。后面会持续优化，提高准确率，如果同学们有好的建议，也欢迎来探讨。

2022-07-07 21:28:08 10115 12

原创使用PaddlePaddle轻松实现语音合成

使用PaddlePaddle轻松实现语音合成，提供了简单的示例代码，GUI界面操作，还有Flask的Web接口，可以给Android调用。

2022-07-06 21:04:43 2726 1

原创使用PaddlePaddle搭建一个可以识别数千中动物

使用PaddlePaddle实现的数千种动物识别，提供了简单的示例代码，GUI界面操作，还有Flask的Web接口，可以给Android调用。

2022-07-06 19:56:03 1184

原创基于PaddlePaddle实现的语音情感识别

本项目是一个语音情感识别项目，目前效果一般，供大家学习使用。后面会持续优化，提高准确率，如果同学们有好的建议，也欢迎来探讨。

2022-07-06 18:00:46 1416 2

原创基于Pytorch实现的EcapaTdnn声纹识别模型

前言本项目使用了EcapaTdnn模型实现的声纹识别，不排除以后会支持更多模型，同时本项目也支持了多种数据预处理方法，损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m，角度间隔比余弦间隔在对角度的影响更加直接。源码地址：VoiceprintRecognition-Pytorch使用

2022-05-04 15:56:46 8321 39

原创基于PaddlePaddle实现的EcapaTdnn声纹识别模型

本项目使用了EcapaTdnn模型实现的声纹识别，不排除以后会支持更多模型，同时本项目也支持了多种数据预处理方法，损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets,使用了ArcFace Loss，ArcFace loss：Additive Angular Margin Loss（加性角度间隔损失函数），对特征向量和权重归一化，对θ加上角度间隔m

2022-05-01 22:29:11 3368

原创给语音识别文本加上标点符号

在语音识别中，模型输出的结果只是单纯的文本结果，并没有根据语法添加标点符号，本教程就是针对这种情况，在语音识别文本中根据语法情况加入标点符号，使得语音识别系统能够输出在标点符号的最终结果。

2022-01-13 15:29:47 12908 25

原创 WenetSpeech数据集的处理和使用

WenetSpeech数据集包含了10000+小时的普通话语音数据集，所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量，WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

2021-11-30 20:43:06 8177 7

原创基于PaddlePaddle实现的快速人脸识别模型

前言本项目参考了ArcFace的损失函数，同时参考了PP-OCRv2模型结构，意在开发一个模型较小，但识别准确率较高且推理速度快的一种人脸识别项目，该项目训练数据使用emore数据集，一共有85742个人，共5822653张图片，使用lfw-align-128数据集作为测试数据。源码地址：https://github.com/yeyupiaoling/PaddlePaddle-MobileFaceNets数据集准备本项目提供了标注文件，存放在dataset目录下，解压即可。另外需要下载下面这两个数据

2021-11-03 15:32:48 3707 17

原创基于Pytorch实现的快速人脸识别模型

MobileFaceNet本项目参考了ArcFace的损失函数结合MobileNet，意在开发一个模型较小，但识别准确率较高且推理速度快的一种人脸识别项目，该项目训练数据使用emore数据集，一共有85742个人，共5822653张图片，使用lfw-align-128数据集作为测试数据。源码地址：https://github.com/yeyupiaoling/Pytorch-MobileFaceNet数据集准备本项目提供了标注文件，存放在dataset目录下，解压即可。另外需要下载下面这两个数据集，

2021-11-03 15:25:39 6426 40

原创 PPASR语音识别（进阶级）

PPASR（进阶级）基于PaddlePaddle2实现的端到端自动语音识别，相比入门级，进阶级从三个方面来提高模型的准确率，首先最主要的是更换了模型，这次采用了DeepSpeech2模型，DeepSpeech2是2015年百度发布的语音识别模型，其论文为[《Baidu’s Deep Speech 2 paper》](http://proceedings.mlr.press/v48/amodei16.pdf) 。然后也修改了音频的预处理，这次使用了在语音识别上更好的预处理，通过用FFT energy计算线性谱

2021-09-18 09:36:29 1719 4

PPASR的V2版本Conformer训练超大数据集

PPASR的V2版本训练Conformer模型文件，使用Fbank，纯PaddlePaddle，训练数据为超大数据集，13000+小时。源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-11

PPASR的V2版本DeepSpeech2模型文件

PPASR的V2版本训练DeepSpeech2模型文件，使用Fbank，纯PaddlePaddle，训练数据Wenetspeech。源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-08

PPASR的V2版本Conformer模型文件

PPASR的V2版本训练Conformer模型文件，使用Fbank，纯PaddlePaddle，训练数据Wenetspeech。源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-11-08

PaddlePaddle实现的EcapaTdnn声纹识别超大数据melspectrogram

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是梅尔频谱（melspectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-11-08

PaddlePaddle实现的EcapaTdnn声纹识别超大数据（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是声谱图（spectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-11-08

Pytorch实现的EcapaTdnn声纹识别超大数据模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是梅尔频谱（melspectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/legacy2

2022-11-08

Pytorch训练EcapaTdnn声纹识别超大数据模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别超大数据模型，这个模型使用的是声谱图(spectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/legacy2

2022-11-08

三个标点符号的标点符号模型

三个标点符号的标点符号模型，包括，。？这三个标点符号，使用教程：https://blog.youkuaiyun.com/qq_33200967/article/details/126858763

2022-09-15

基于深度学习实现数千种动物识别

基于深度学习实现数千种动物识别，使用Flask提供接口，提供给Android调用，提供Android应用调用程序。还有GUI界面演示。

2022-07-05

基于PaddlePaddle实现的语音合成工具

基于PaddlePaddle实现的语音合成工具，包含GUI界面操作和Web接口，以及简单示例。视频教程：https://www.bilibili.com/video/BV1G34y1s744

2022-06-27

基于深度学习框架ONNX的人脸识别系统

基于深度学习框架ONNX的人脸识别系统，包含了使用图片路径进行识别、使用摄像头进行识别、提供Web接口的识别。包含人脸检测、人脸识别、年龄性别识别、人脸关键点识别使用教程视频：https://www.bilibili.com/video/BV13N4y1G7Rc

2022-06-24

基于Pytorch实现的EcapaTdnn声纹识别大模型（spectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（spectrogram），这个模型使用的声谱图（spectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-07

基于Pytorch实现的EcapaTdnn声纹识别大模型（melspectrogram）

基于Pytorch实现的EcapaTdnn声纹识别大模型（melspectrogram），这个模型使用的梅尔谱图（melspectrogram）注意是legacy2分支，源码地址是：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-06

基于Pytorch实现的EcapaTdnn声纹识别模型（spectrogram）

2022-05-04

基于Pytorch实现的EcapaTdnn声纹识别模型（melspectrogram）

2022-05-03

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型，这个模型使用的是声谱图（spectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-02

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别大模型，这个模型使用的是声谱图（melspectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-05-01

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（spectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型，这个模型使用的是声谱图（spectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-26

基于PaddlePaddle实现的EcapaTdnn声纹识别模型（melspectrogram）

基于PaddlePaddle实现的EcapaTdnn声纹识别模型，这个模型使用的是梅尔频谱（melspectrogram）注意是legacy2分支，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/legacy2

2022-04-25

PPASR流式与非流式语音识别模型（LibriSpeech数据集）

PPASR流式与非流式语音识别模型（LibriSpeech数据集），源码地址：https://github.com/yeyupiaoling/PPASR/tree/release/2.4.x

2022-01-26

对语音识别结果加上标点符号模型

对语音识别结果加上标点符号，使用教程：https://yeyupiaoling.blog.youkuaiyun.com/article/details/122474859

2022-01-13

Pytorch实现的流式与非流式语音识别模型（数据集：free_st_chinese_mandarin_corpus）

Pytorch实现的流式与非流式语音识别模型（数据集：free_st_chinese_mandarin_corpus），源码地址为：https://github.com/yeyupiaoling/MASR

2021-12-26

Pytorch实现的流式与非流式语音识别模型（数据集：thchs30）

Pytorch实现的流式与非流式语音识别模型（数据集：thchs30），源码地址为：https://github.com/yeyupiaoling/MASR

2021-12-26

Pytorch实现的流式与非流式语音识别模型（数据集：AIShell）

Pytorch实现的流式与非流式语音识别模型（数据集：AIShell），源码地址为：https://github.com/yeyupiaoling/MASR

2021-12-26

猫狗叫声声音分类数据集

2025-03-08

基于PaddlePaddle声纹识别模型全部模型参数文件

基于PaddlePaddle声纹识别模型全部模型参数文件，源地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle

2023-08-28

基于Pytorch声纹识别模型全部模型参数文件

基于Pytorch声纹识别模型全部模型参数文件，源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch

2023-08-28

基于PaddlePaddle声纹识别模型EcapaTdnn全部模型参数文件

基于PaddlePaddle实现的EcapaTdnn声纹识别，训练中文数据集、更大数据集、超大数据集，各种预处理方法。源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle/tree/release/0.x

2023-08-11

基于Pytorch声纹识别模型EcapaTdnn全部模型参数文件

基于Pytorch实现的EcapaTdnn声纹识别，训练中文数据集、更大数据集、超大数据集，各种预处理方法。源码地址：https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch/tree/release/0.x

2023-08-11

MASR的V2版本Conformer训练超大数据集

MASR的V2版本训练Conformer模型文件，使用Fbank，Pytorch，训练数据为超大数据集，13000+小时。源码地址：https://github.com/yeyupiaoling/MASR/tree/release/2.3.x

2023-01-29

3000+小时的中文普通话语音数据集

3000+小时的中文普通话语音数据集，可用于语音识别训练，使用地址：https://github.com/yeyupiaoling/PPASR

2022-11-14

自定义中文语料约2千万条数据

自定义中文语料，约2千万条数据，用于训练kenlm模型，使用地址：https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B

2022-11-14