- 博客(129)
- 收藏
- 关注
原创 思维链技术(Chain-of-Thought, CoT)
思维链(Chain-of-Thought, CoT)是一种通过`模拟人类逐步推理`过程来提升大型语言模型(LLM)复杂任务表现的技术。其核心思想是让模型在生成最终答案前,`先输出中间推理步骤`,从而增强逻辑性和可解释性。
2025-03-29 18:20:26
221
原创 Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback论文学习
本文提出了一种专为零样本文本到语音(TTS)模型设计的全新优化方法 UNO。UNO 通过数百个自生成的样本,将人类反馈有效地整合到 TTS 的学习目标中。这些样本由深度神经网络模型标注了理想/不理想的伪标签及其相应的标签不确定性。后续的优化过程以不确定性感知的方式直接最大化这些样本的利用。实验结果表明,无论是在客观指标还是由人类评估的主观指标上,UNO 都展现出了显著的效果。我们相信,这项工作能够为利用人类反馈来提升人工智能生成内容(AIGC)的高维数据生成性能提供独特的见解和启发,特别是在人类感知和评估存
2025-03-23 12:01:47
786
原创 Align-SLM论文学习
本研究提出了一种名为Align-SLM的新颖框架,通过偏好优化显著增强了语音语言模型(SLM)的语义能力。借助大型语言模型(LLM)引导的语义反馈和直接偏好优化,Align-SLM在多项基准测试和生成任务中实现了SLM的最先进性能,持续超越预训练的SLM。该框架通过引入LLM评估反馈和课程学习,展示了卓越的效果。本研究凸显了偏好优化在SLM中的关键作用,为更优秀的端到端语音到语音模型的发展铺平了道路。
2025-03-22 12:06:28
719
原创 SpeechAlign: Aligning Speech Generation to HumanPreferences论文学习
Speech language models have significantly advanced in generating realistic speech, with neural codec language models standing out. However, the integration of human feedback to align speech outputs to human preferences is often neglected. This paper addres
2025-03-20 22:00:54
907
原创 音频大语言模型可作为描述性语音质量评价器
音频大语言模型(LLMs)能够感知并评估语音质量,且能提供详细的描述。提出了ALLD,这是一种旨在提升音频LLM输出质量的token-level蒸馏方法
2025-03-18 18:39:51
751
原创 SpeechCraf论文学习
挑战 语音风格包含细微的,传统基于标签/模板的标注方法难以充分捕捉,制约了语音-语言多模态模型的性能。数据瓶颈: 大规模数据收集与高质量标注之间存在矛盾,亟需自动化标注系统构建兼顾规模与深度的数据集。2.自然语言标注生成假设听到一段语音,里面的人说话。一听就知道TA在害怕。但现在的AI很难把这种“害怕”的语音风格转化成准确的文字描述,比如它可能只会标个“负面情绪”,但无法描述细节(比如“颤抖的哭腔”)。这就是论文要解决的难题:如何让AI像人类一样,用自然语言详细描述语音中的风格细节?过去的方法就像给语音贴标
2025-03-14 21:27:29
1064
原创 流式延迟(Streaming Latency)
这种能力对于提供流畅的用户体验至关重要,尤其是在实时交互场景中(如语音助手、实时翻译等)。在整个流程中,系统需要在用户说话的同时完成语音识别、文本理解和语音合成,以实现。流式延迟指的是系统在用户说话的同时,能够。在语音对话系统中,除了文本理解和生成语音的质量外,系统生成语音所需的时间。
2025-02-27 12:33:46
487
原创 语音对话模型评估-语音质量
语音质量是评估语音对话系统性能的基础之一,因为它直接关系到用户的体验。高质量的语音输出能够提升用户的满意度和交互体验,而低质量的语音输出可能导致用户难以理解或产生负面情绪。
2025-02-27 12:02:27
683
原创 MT-Metrics
MT-Metrics 是一类用于评估生成文本质量的指标,最初用于机器翻译任务,后来扩展到生成任务(如对话生成、文本摘要等)。它的核心思想是通过比较生成文本与参考文本之间的相似性(如词汇重叠、句法结构、语义相似性)来评估生成质量。生成文本与参考文本的词汇重叠数。
2025-02-27 11:11:04
1041
原创 Acc-Metrics
它的核心思想是通过比较模型的预测结果与标准答案,计算模型的准确率、召回率、F1 分数等指标。Acc-Metrics 是一类基于。的评估指标,主要用于评估模型在。
2025-02-27 11:06:40
475
原创 Qwen-Audio
也就是说,模型在训练时可以同时处理不同类型的任务,并且使得这些任务之间能够相互受益。的,该模型是一个 32 层的 Transformer 解码器模型,隐藏层大小为 4096,包含约 7.7 亿个参数。在音频处理领域,已经开发了多种不同的音频数据集,目的是解决不同的任务。,其核心目标是通过共享标签来促进相似任务的协作,并确保不同任务的输出格式能够区分开来,避免模型产生“一对多”的映射问题。通过这种方式,Qwen-Audio-Chat 模型能够处理用户输入的音频,并生成相应的文本回答。
2025-02-19 20:45:01
777
原创 CLIP论文学习
CLIP的核心思想是通过对比学习,让模型学习图像和文本之间的关联。它分别对图像和文本进行编码,将它们映射到同一个特征空间,使得相关的图像和文本在该空间中距离更近。
2025-02-18 20:34:13
731
原创 梯度下降优化算法-Adam
Adam 的核心思想:结合动量法和 RMSProp,通过计算梯度的一阶矩和二阶矩,自适应调整学习率。Adam 的更新公式mtβ1⋅mt−11−β1⋅gtmtβ1⋅mt−11−β1⋅gtvtβ2⋅vt−11−β2⋅gt2vtβ2⋅vt−11−β2⋅gt2mtmt1−β1tmt1−β1tmt。
2025-01-27 16:49:22
902
原创 梯度下降优化算法-RMSProp
RMSProp 的核心思想:通过指数加权移动平均计算历史梯度平方和,自适应调整学习率。RMSProp 的更新公式Eg2tγ⋅Eg2t−11−γ⋅gt2Eg2tγ⋅Eg2t−11−γ⋅gt2θt1θt−ηEg2tϵ⋅gtθt1θt−Eg2tϵη⋅gtPyTorch 实现:使用,设置lralphaeps等参数。优缺点。
2025-01-27 16:48:14
1386
原创 梯度下降优化算法-指数加权平均
指数加权平均是一种对时间序列数据进行平滑处理的方法。它的核心思想是对历史数据赋予指数衰减的权重,最近的观测值权重较大,而较早的观测值权重逐渐减小。假设有一系列观测值x1x2xtx1x2xt,希望计算这些数据的指数加权平均值vtv_tvt。
2025-01-27 16:46:56
1077
原创 梯度下降优化算法-动量法
模拟物理中的动量现象,使得参数更新不仅依赖于当前梯度,还依赖于历史梯度的加权和。是随机梯度下降(Stochastic Gradient Descent)的缩写,但它支持动量法。在 PyTorch 中,动量法通过。动量法通过引入“动量”变量。
2025-01-27 16:45:39
668
原创 学习率衰减策略
等间隔学习率衰减:每隔固定的训练轮数,将学习率乘以一个衰减系数。数学公式ηtη0⋅γ⌊ts⌋ηtη0⋅γ⌊ts⌋作用机制训练初期:较大的学习率加快收敛。训练中后期:较小的学习率提高精度。PyTorch 实现:使用。
2025-01-27 16:43:52
947
原创 LSTM数学原理以及代码实现
LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),旨在解决传统 RNN 在长序列训练中的梯度消失和梯度爆炸问题。,包括三个门:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。这些门通过 Sigmoid 函数(输出范围。(输入门、遗忘门、输出门)来控制信息的流动,从而更好地捕捉长期依赖关系。输入门决定哪些新信息将存储到细胞状态。遗忘门决定哪些信息从细胞状态。输出门决定哪些信息从细胞状态。)来控制信息的流动。
2025-01-20 19:26:03
1038
原创 多层 RNN原理以及实现
注意:下方右图仅仅是逻辑上展开的数据流,其中不同世间步上的同一层,用的是同一个权重矩阵。下面是一个可视化的结构显示图:其中每一层神经元都要有两个方向的输出,一个是向。,每一层的输出作为下一层的输入,从而逐层提取更高层次的抽象特征。首先,单层 RNN 的计算过程如下。层的 RNN,每一层的隐藏状态为。以下是一个具体的例子,展示当。的输入、输出以及参数的作用。,单层 RNN 的隐藏状态。多层 RNN 的核心思想是。时,PyTorch 中。最终,整个序列的输出为。的下一层传送,另一个是向。每一层的初始隐藏状态。
2025-01-20 18:30:03
1313
原创 Word2Vec中的CBOW模型训练原理详细解析
CBOW模型的训练目标是利用一个单词周围的上下文单词来预测该单词本身。具体来说,给定当前单词的上下文单词,通过训练神经网络来最大化当前单词出现在这些上下文单词中的概率。假设有一个词汇表,大小为VVV,表示为Ww1w2wVWw1w2...wV。对于每个单词wiw_iwixix^{(i)}xi:输入的one-hot编码向量,维度为V×1V\times1V×1,仅在第iii个位置为1,其余为0。viv_ivi。
2025-01-17 19:35:06
958
2
原创 docker基础命令
Dockerfile 的基本结构基础镜像(Base Image):从哪个基础镜像开始构建。维护者信息(Maintainer):指定镜像的维护者信息(可选)。环境变量(Environment Variables):设置环境变量。工作目录(Working Directory):设置工作目录。文件复制(Copy):将文件从宿主机复制到镜像中。运行命令(Run):在镜像中执行命令。暴露端口(Expose):指定容器运行时需要暴露的端口。启动命令(Entrypoint 或 Cmd)
2024-11-30 06:30:00
1104
1
原创 CDM(码分复用)发送和接受原理
现在假设主机A、B、C。其对应的码片序列为a、b、c。基站X将结果与每一个主机的码片序列做内积。现在假设A发送比特1,对应发送的是。C发送比特0,对应发送。,所以C发送的是0。
2024-11-21 17:12:37
203
原创 初识Spring
用白话来说,就是我们在创建对象的时候,不希望自己手动new一个,这就需要将这个过程交给别人完成,而这个人,就是IoC容器。如上图所示,我们把创建对象的工作交给IoC,这样,当我们需要一个对象来调用方法时,我们只需要“声明”这个对象即可。而且,当Service需要依赖于Dao时,也不需要我们自己手动设置关系,可以交由IoC完成。
2024-11-10 13:23:34
1271
原创 循环神经网络RNN
大家在学习深度学习时,都是按照“人工神经网络”、“卷积神经网络”的顺序来学习的。我们在学习的过程中可能会发现这样网络可能不适用一些带有“时间序列”的问题。我们使用“人工神经网络”和“卷积神经网络”时,不能将“时间考虑在内”,但是尝试告诉我们,股票也会受到前面时间环境的影响,因此,我们需要构建一个新的模型,用来解决这个问题。下面先看一下RNN的结构:我们来解释一下这个结构,这里面x1、x2、x3...并不是指一个特征值,而是指一条记录。
2024-11-05 06:45:00
995
原创 Mybatis的关联关系-多对多
在进行数据库原理的时候,我们将E-R图的实体转化为我们的表时,有时要考虑到多对多的关系。比如下图:我们可以转化为下面的表:因为User和Orders是1:n的关系,所以Orders有一个外键。t_orders表因为多对多关系需要一个额外的表来辅助:t_ordersitem表t_product表我们知道,一个订单中可以都多个种类的水果,同一种类的水果也可以在不同的订单中。我们现在的需求是,根据订单的id,查询出订单信息的同时,还要查出其包含的水果。
2024-10-28 06:45:00
384
原创 算法刷题-小猫爬山
本题来源翰翰和达达饲养了 NN 只小猫,这天,小猫们要去爬山。经历了千辛万苦,小猫们终于爬上了山顶,但是疲倦的它们再也不想徒步走下山了(呜咕>_<)。翰翰和达达只好花钱让它们坐索道下山。索道上的缆车最大承重量为 W,而 N 只小猫的重量分别是 C1、C2……CN。当然,每辆缆车上的小猫的重量之和不能超过 W。每租用一辆缆车,翰翰和达达就要付 1 美元,所以他们想知道,最少需要付多少美元才能把这 N只小猫都运送下山?
2024-10-26 11:07:29
1031
原创 基于pytorch搭建CNN
self.conv1 = nn.Sequential( # 输入大小(1,28,28)nn.Conv2d(in_channels=1, # 灰度图out_channels=16, # 得到的特征图的个数(也是使用卷积核的个数)kernel_size=5, # 卷积核的大小stride=1, # 步长padding=2, # 边缘填充,如果希望得到的特征图大小和原来一样,那么padding=(kernel_size-1)/2 if stride = 1),nn.ReLU(),
2024-10-24 20:12:57
1417
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人