- 博客(15)
- 收藏
- 关注
原创 LoRA中的低秩矩阵估计
LoRA(Low-Rank Adaptation)是一种用于微调大型语言模型(LLM)的高效方法,尤其在资源有限的环境下表现出色。其核心思想是通过低秩矩阵来近似微调过程中权重矩阵的变化,从而大幅减少需要训练的参数数量。
2025-05-26 10:04:36
896
原创 LoRA
文章摘要:LoRA(低秩自适应)方法通过低秩分解ΔW=BA(B∈ℝᵈ×ʳ,A∈ℝʳ×ᵏ)实现参数高效调整,其中r≪min(d,k)。标准初始化策略为A随机初始化、B初始化为零,配合缩放因子α/r确保训练初期ΔW=0,保持模型稳定性。这种设计具有三重优势:(1)保护预训练知识;(2)确保梯度有效传播(∂L/∂B≠0);(3)打破参数对称性。反例表明若A=0将导致梯度消失,而双随机初始化会扰动模型输出。实践建议α/r∈[1,8],强调初始化策略是平衡稳定性与可训练性的关键。
2025-05-26 10:03:15
753
原创 LLaMA
LLaMA(Large Language Model Meta AI)是Meta(之前的Facebook)于2023年推出的一系列大规模预训练语言模型。LLaMA系列模型与其他大规模语言模型(如GPT、BERT)在架构和训练方法上有一些独特的创新,特别是在参数规模、计算效率和训练数据方面的优化。
2025-05-22 17:09:24
359
原创 BERT与Transformer的区别
textbf{BERT}(Bidirectional Encoder Representations from Transformers)与 \textbf{Transformer} 之间的关系可以理解为:BERT 是以 Transformer 为基础架构的预训练语言模型,但它并不是 Transformer 的全部。\item \textbf{BERT}:BERT的训练目标包括掩蔽语言模型(MLM)和下一个句子预测(NSP),这使得BERT能够进行无监督的预训练,学习到强大的语言表示。
2025-05-22 17:07:34
877
原创 Transformer与LLM
在人工智能(AI)领域,自然语言处理(NLP)近年来取得了突破性进展,很大程度上得益于Transformer模型的出现。Transformer于2017年由Vaswani等人提出(\href{https://arxiv.org/abs/1706.03762}{Attention Is All You Need}),通过引入全新的注意力机制,彻底改变了语言模型的设计范式。
2025-05-22 17:02:27
969
原创 RAG (检索增强生成)
RAG的“检索、增强、生成”,谁增强了谁,谁生成了答案,主语很重要。是从知识库中检索到的问答对,增强了LLM的提示词(prompt),LLM拿着增强后的Prompt生成了问题答案。RAG 的核心思想是,单纯依靠生成模型进行语言生成时,模型只能基于其训练时获得的知识进行回答,可能会出现不准确或“幻觉”的生成。通过引入检索机制,RAG 模型能够在生成的过程中访问外部信息,从而生成更加准确、丰富且上下文相关的回答。
2025-05-18 16:51:40
1059
原创 RBF核函数的广泛应用与优势
在支持向量机(SVM)中,选择合适的核函数对于模型的性能至关重要。RBF(Radial Basis Function)核函数,因其强大的非线性映射能力,成为了SVM中使用最广泛的核函数之一。RBF核函数的优越性使得它在众多应用中都表现得尤为出色。下面我们将详细探讨为什么RBF核函数是最常用的选择。
2025-05-12 16:16:27
555
原创 池化层与卷积层之间的关系
卷积神经网络(Convolutional Neural Network, CNN)是深度学习中一种非常重要的网络结构,广泛应用于图像分类、目标检测、语音识别等任务。CNN 的突出优势在于能够有效地从原始数据(通常是图像)中自动学习到丰富、抽象且具有判别力的特征。而在 CNN 中,卷积层(Convolutional Layer)和池化层(Pooling Layer)是最核心的两种层次结构,它们通过不同的操作机制相互配合,为后续的网络层提供高质量的特征表示。下面将对卷积层与池化层的原理、作用、彼此间的协作关系等
2025-05-12 16:15:31
1019
原创 Transformer与CNN、RNN的区别
在深度学习的发展过程中,卷积神经网络(CNN)、递归神经网络(RNN)和Transformer是三种非常重要的模型架构,它们分别在图像处理、序列建模和自然语言处理等领域取得了巨大的成功。尽管它们都属于神经网络的一种形式,但它们的工作原理、应用场景和优缺点存在显著差异。本文将从多个维度详细比较Transformer、CNN和RNN,探讨它们的区别以及各自在不同任务中的优势和劣势。
2025-05-12 16:13:40
1018
原创 为什么Transformer要进行位置编码
Transformer模型以自注意力机制(Self-Attention)为核心,通过并行化计算在序列建模任务中表现卓越。然而,与递归神经网络(RNN)或卷积神经网络(CNN)不同,Transformer没有内置的顺序处理能力,即它并不知道序列中各个位置的先后顺序。为了解决这一问题,Transformer需要显式地引入序列的位置信息,这就是位置编码(Positional Encoding)的主要动机。下面将从模型原理、位置编码的数学形式以及它在Transformer中的重要作用等方面进行详细阐述。
2025-04-29 15:01:54
852
原创 单头与多头注意力机制
在Transformer模型中,注意力机制是核心组成部分,而在自注意力机制(Self-Attention)中,单头注意力(Single-head Attention)和多头注意力(Multi-head Attention)是两种重要的注意力计算方式。它们虽然在本质上都属于注意力机制,但在计算方式、能力表现和应用场景上有显著的差异。本文将详细探讨这两种机制的工作原理、区别、应用场景以及如何选择适合的注意力方式。
2025-04-25 16:35:13
1214
1
原创 灾难性遗忘及其解决方法
在深度学习和神经网络领域,灾难性遗忘(Catastrophic Forgetting)是指模型在学习新任务时,出现原本已学到的旧任务的知识丧失现象。特别是在连续学习(Continual Learning)或者增量学习(Incremental Learning)中,模型随着新任务的学习,往往会忘记之前学到的内容,这种现象称为灾难性遗忘。灾难性遗忘是深度学习中的一个重要问题,尤其是在终身学习(Lifelong Learning)任务中,如何让模型在不断学习新任务的同时,保持对旧任务的记忆,是一个亟待解决的挑战。
2025-04-25 16:31:43
1286
1
原创 SVM的相关原理
其中,(|\mathbf{x}_i - \mathbf{x}_j|_1) 是输入向量 (\mathbf{x}_i) 和 (\mathbf{y}_i) 之间的曼哈顿距离(即坐标轴方向上的距离),(\sigma) 是一个参数,控制拉普拉斯分布的宽度。其中,(|\mathbf{x}_i - \mathbf{x}_j|_1) 是输入向量 (\mathbf{x}_i) 和 (\mathbf{y}_i) 之间的曼哈顿距离(即坐标轴方向上的距离),(\sigma) 是一个参数,控制拉普拉斯分布的宽度。
2025-04-25 16:25:03
680
原创 从今天起,不定期分享个人的机器学习和算法笔记,有部分参考网页上的各位大佬的资料,已注明对应链接
其中,\(\|\mathbf{x}_i - \mathbf{x}_j\|_1\) 是输入向量 \(\mathbf{x}_i\) 和 \(\mathbf{y}_i\) 之间的曼哈顿距离(即坐标轴方向上的距离),\(\sigma\) 是一个参数,控制拉普拉斯分布的宽度。其中,\(\|\mathbf{x}_i, \mathbf{x}_j\|\) 是输入向量 \(\mathbf{x}_i\) 和 \(\mathbf{y}_i\) 之间的欧几里得距离,\(\sigma\) 是一个参数,控制高斯分布的宽度。
2025-04-21 11:51:21
379
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅