自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(98)
  • 问答 (2)
  • 收藏
  • 关注

原创 跟随阿里-语音论文分享

(\alpha):权重系数(如 0.5),用于平衡 Log-MSE 和 Phase-Aware Mel Loss 的贡献。(y_{\min}) 和 (y_{\max}):分别是数据集中综合差异分数的最小值和最大值。很抱歉公式没有正确生成!(\Delta \phi[i]):干净语音和增强语音在第 (i) 帧的相位差。3. 综合差异分数计算公式。(y):综合差异分数。

2025-03-03 18:12:13 651

转载 git命令

git 的命令使用方法: https://www.cnblogs.com/lhx9527/p/16879739.html。

2024-11-22 18:26:10 33

原创 transformer的模型结构分析

transformer的模型结构分析

2024-09-23 15:43:21 418

原创 大模型-moe混合专家模型

九、专家的数量对预训练有何影响?六、为什么门控网络要引入噪声呢。十二、MoE和稠密模型的对比。十一、MoE模型的主要特点。四、介绍稀疏 MoE 层。七、如何均衡专家间的负载。五、介绍门控网络或路由。十、什么是topK门控。十五、微调MoE的方法。十六、MoE的并行计算。二、MoE出现的背景。三、有哪些MoE模型。

2024-09-18 14:54:57 591

原创 追踪大模型研究

追踪大模型研究。

2024-09-18 14:44:19 343

原创 AI-疑难杂题

它的核心优势是:通过提高已分配显存的利用率,来动态提高多batch推理的batch数.举个例子,推理模型用32k seq len,就需要先预留对应32k的kvcache,但是实际对话场景prompt就很短,比如几十字符(没人愿意多敲键盘),这样的话,预留的32k,后面很大一部分很可能用不到,很浪费,vllm就是把32k分块管理,比如按1k分,当字符长度小于1k时,后面的块就可以动态腾出来,给其它batch先用着,等这个序列刚超过1k时,再给它分配一个新的块。作者:Vincent Zhu。

2024-08-19 15:08:22 519 1

原创 VLLM本地部署Qwen2-7B-Instruce

使用 vllm 本地部署 Qwen2-7B-Instruct。使用llama调用 python llama。安装 flash-attention,安装 Ray 和 Vllm,

2024-07-29 16:18:44 1076 2

原创 大模型论文、github地址汇总

对于文本处理,Gemini 1.5 Pro在处理高达530,000 token的文本时,能够实现100%的检索完整性,在处理1,000,000 token的文本时达到99.7%的检索完整性。在音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。Gemini 1.5的设计,基于的是谷歌在Transformer和混合专家(MoE)架构方面的前沿研究。因此,团队才能以惊人的速度,不断迭代和推出更先进的Gemini版本。

2024-07-12 09:07:09 362

原创 vim配置

【代码】vim配置。

2024-04-10 14:12:40 283

转载 pytorch基础模型层和tranformer解释

2. transformer解释和实践: https://cloud.tencent.com/developer/article/2323625。1.模型基础层: https://cloud.tencent.com/developer/article/1664899, 转载。

2024-04-09 09:44:09 94

原创 语音识别之WFST解码器

(1)——从arpa格式的ngram到G.fst: https://zhuanlan.zhihu.com/p/572143181。

2024-03-29 17:21:27 263

原创 k2相关文章

从上述实验中可以看出,RNN-T预测网络的作用和传统ASR的语言模型并不等同,预测网络的最大作用似乎是阻止输出重复的建模单元。同时,实验证明以子词为建模单元的带有无状态预测网络RNN-T(RNNT-SLP)和基线RNN-T相媲美,并且识别效果要远远好于CTC模型。这表明了将之前的输出作为输入对识别效果是有提升的,此外,至少对于中低资源的语种来说,RNN-T并不需要超过一个子词的历史来实现最优效果。RNNT-SLP在常规RNN-T的基础上有额外的优势:减少了模型总参数量,并简化了模型结构。

2024-03-12 17:41:31 533

转载 阿里-paraformer论文详解

转发:https://zhuanlan.zhihu.com/p/547497094论文:https://link.zhihu.com/?背景:近年来,随着端到端语音识别的流行,基于 Transformer 结构的语音识别系统逐渐成为了主流。然而,由于 Transformer 是一种自回归模型,需要逐个生成目标文字,计算复杂度随着目标文字数量而呈线性增加,限制了其在工业生产中的应用。

2024-03-12 17:12:00 1319 1

原创 mfcc 计算过程

https://www.jianshu.com/p/ea59eb6c2829

2024-03-10 00:36:53 431

原创 c++: string中 find, rfind, find_frist_of, find_laste_of 与 substr之间的操作

类中,有几个成员函数可以用于在字符串中执行搜索和子字符串提取操作。中任意字符的最后一次出现的位置(索引)。中任意字符的第一次出现的位置(索引)。,默认情况下从字符串的末尾开始搜索。如果找不到子字符串,返回。,默认情况下从字符串的末尾开始搜索。最后一次出现的位置(索引)。: 反向查找给定字符集合中任意字符最后一次出现的位置。第一次出现的位置(索引)。: 查找给定字符集合中任意字符第一次出现的位置。: 反向查找子字符串的最后一个出现位置。: 查找子字符串的第一个出现位置。如果找不到子字符串,返回。

2024-03-06 11:28:49 658

原创 git使用ssh密钥上传代码操作

要通过 SSH 连接 GitLab,您需要首先确保已经生成了 SSH 密钥并将公钥添加到您的 GitLab 账户中。以下是连接 GitLab 的基本步骤:生成 SSH 密钥:在终端中运行以下命令生成 SSH 密钥:将公钥添加到 GitLab 账户中:cat ~/.ssh/id_rsa.pub, 将其添加到您的 GitLab 账户的 SSH 密钥设置中。在 GitLab 上创建一个新的项目或找到现有的项目。

2024-02-28 17:19:45 772

原创 python的logger日志

【代码】python的logger日志。

2024-02-18 10:02:04 447 1

原创 parselmouth提取pitch,numpy 计算log能量

通过计算音高的平均值和标准差来分析说话人的性别和情感等信息,利用能量过滤背景人声。

2024-01-15 17:35:17 775

原创 cmake使用方法

cmake使用指南

2023-12-06 20:53:35 405

原创 gmm对齐代码

【代码】gmm对齐代码。

2023-10-23 22:58:51 149

原创 语音识别-置信度-las结构

(2)但是,我们使用置信度时候,通常去设置一个阈值P~来进行筛选正确的和不正确的,因此制定了三个指标precision和recall,AUC。在传统的基于hmm的系统中,通过从假设compact空间中计算单词的后x验概率,可以很容易地获得可靠的置信分数,egs:lattice, confusion networks;随着置信阈值的增加,常规系统的WER单调地减小。1.在token级别的上,asr的置信度分数被定义token正确的概率,如果识别器对输出token非常自信,那么相应的置信度分数应该接近于1。

2023-05-11 17:57:20 1154

原创 Ngram:多语言模型插值

mix-lambda2 用于插值的第二个模型(-mix-lm对应的模型)的比例,那么第二个模型的比例为1-lambda-mix-lambda2。-limit-vocab 当两个模型的词典不一样的时候,使用该参数限制词典列表,没有效果。-mix-lm 用于插值的第二个ngram模型,-lm是第一个ngram模型。-vocab 当两个模型的词典不一样的时候,使用该参数限制词典列表,没有效果。-lambda 主模型(-lm对应模型)的插值比例,0~1,默认是0.5。-mix-lm2 用于插值的第三个模型。

2023-05-06 17:42:44 1066

转载 交叉熵损失函数(Cross Entropy Loss)、散度(KL)

交叉熵、散度

2023-02-12 10:47:32 563

转载 vad系列

vad

2022-08-30 11:22:44 351

原创 kaldi源码解析实践

AIBigKaldi(十六)| Kaldi的quick模型(源码解析)AIBigKaldi(十五)| Kaldi的说话人自适应模型(源码解析)AIBigKaldi(十四)| Kaldi的特征转换模型(源码解析)AIBigKaldi(十三)| Kaldi的三音子模型训练(下)(源码解析)AIBigKaldi(十二)| Kaldi的三音子模型训练(中)(源码解析)AIBigKaldi(十一)| Kaldi的三音子模型训练(上)(源码解析)AIBigKaldi(十)| Kaldi的thchs30实例(

2022-05-30 11:08:42 451

原创 TDNN时延神经网络---TDNN-F

1.TDNN时延神经网络转近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", “D”, "G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱。普通神经网络识别音素在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅音"B", “D”, “G”,那么我们可以设计这样的神经网络:图1其中输入0-12代表每

2022-04-15 10:13:17 9575

转载 kaldi学习笔记

1.单音素训练2.三音素训练3.WFST基础概念4.WFST compose5.WFST Determinization6.WFST Minimization7.WFST-based dynamic decoders8.统计语言模型9.神经网络语言模型10.word2vec11.NLP模型

2022-04-12 00:25:23 165

转载 NLP中的Tokenization(subword BPE--WPM--ULM )

NLP中的Tokenization

2022-04-11 23:21:31 243

转载 论文阅读《EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-T》

RNN-T

2022-04-08 22:53:28 221

转载 论文阅读《SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING》

半监督语音识别

2022-04-08 22:41:14 216

转载 自训练和与预训练在语音识别中的互补

Self-training and Pre-training are Complementary for Speech Recognition自训练和与预训练在语音识别中的互补分析

2022-04-08 17:56:14 149

原创 RNA论文解读

2022-03-06 21:28:04 234

转载 基于Kaldi的中文在线识别系统

基于Kaldi的中文在线识别系统

2022-02-14 09:27:43 614

转载 语音(八)——GMM-HMM声学模型

语音(八)——GMM-HMM声学模型

2022-02-13 19:22:47 242

转载 语音(七)——基于GMM的0-9语音识别系统

语音(七)——基于GMM的0-9语音识别系统

2022-02-13 19:21:34 231

转载 语音(六)——混合高斯模型(GMM)

语音(六)——混合高斯模型(GMM)

2022-02-13 19:19:03 230

转载 语音(五)——隐马尔科夫模型(HMM)

语音(五)——隐马尔科夫模型(HMM)

2022-02-13 19:18:06 140

转载 语音(四)——MFCC特征提取

语音(四)——MFCC特征提取

2022-02-13 19:16:24 372

转载 语音(三)——傅里叶变换家族

语音(三)——傅里叶变换家族

2022-02-13 19:01:22 469

转载 语音(二)——语音预处理

1 预滤波CODEC说得通俗一点,对于音频就是A/D和D/A转换。前端带宽为300-3400Hz(语音能量主要集中在250~4500Hz)的抗混叠滤波器。工程测量中采样频率不可能无限高也不需要无限高,因为一般只关心一定频率范围内的信号成份。为解决频率混叠,在对模拟信号进行离散化采集前,采用低通滤波器滤除高于1/2采样频率的频率成份。实际仪器设计中,这个低通滤波器的截止频率(fc) 为:截止频率(fc)= 采样频率(fs) / 2.562 A/D转化8kHz的采样频率,12bit的线性量化精度。

2022-02-13 18:56:53 2319

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除