qq_58768836-优快云博客

原创 LoRA中的低秩矩阵估计

LoRA（Low-Rank Adaptation）是一种用于微调大型语言模型（LLM）的高效方法，尤其在资源有限的环境下表现出色。其核心思想是通过低秩矩阵来近似微调过程中权重矩阵的变化，从而大幅减少需要训练的参数数量。

2025-05-26 10:04:36 896

文章摘要：LoRA（低秩自适应）方法通过低秩分解ΔW=BA（B∈ℝᵈ×ʳ，A∈ℝʳ×ᵏ）实现参数高效调整，其中r≪min(d,k)。标准初始化策略为A随机初始化、B初始化为零，配合缩放因子α/r确保训练初期ΔW=0，保持模型稳定性。这种设计具有三重优势：(1)保护预训练知识；(2)确保梯度有效传播（∂L/∂B≠0）；(3)打破参数对称性。反例表明若A=0将导致梯度消失，而双随机初始化会扰动模型输出。实践建议α/r∈[1,8]，强调初始化策略是平衡稳定性与可训练性的关键。

2025-05-26 10:03:15 753

原创 LLaMA

LLaMA（Large Language Model Meta AI）是Meta（之前的Facebook）于2023年推出的一系列大规模预训练语言模型。LLaMA系列模型与其他大规模语言模型（如GPT、BERT）在架构和训练方法上有一些独特的创新，特别是在参数规模、计算效率和训练数据方面的优化。

2025-05-22 17:09:24 359

原创 BERT与Transformer的区别

textbf{BERT}（Bidirectional Encoder Representations from Transformers）与 \textbf{Transformer} 之间的关系可以理解为：BERT 是以 Transformer 为基础架构的预训练语言模型，但它并不是 Transformer 的全部。\item \textbf{BERT}：BERT的训练目标包括掩蔽语言模型（MLM）和下一个句子预测（NSP），这使得BERT能够进行无监督的预训练，学习到强大的语言表示。

2025-05-22 17:07:34 877

原创 Transformer与LLM

在人工智能（AI）领域，自然语言处理（NLP）近年来取得了突破性进展，很大程度上得益于Transformer模型的出现。Transformer于2017年由Vaswani等人提出（\href{https://arxiv.org/abs/1706.03762}{Attention Is All You Need}），通过引入全新的注意力机制，彻底改变了语言模型的设计范式。

2025-05-22 17:02:27 969

原创 RAG (检索增强生成)

RAG的“检索、增强、生成”，谁增强了谁，谁生成了答案，主语很重要。是从知识库中检索到的问答对，增强了LLM的提示词（prompt），LLM拿着增强后的Prompt生成了问题答案。RAG 的核心思想是，单纯依靠生成模型进行语言生成时，模型只能基于其训练时获得的知识进行回答，可能会出现不准确或“幻觉”的生成。通过引入检索机制，RAG 模型能够在生成的过程中访问外部信息，从而生成更加准确、丰富且上下文相关的回答。

2025-05-18 16:51:40 1059

原创 RBF核函数的广泛应用与优势

在支持向量机（SVM）中，选择合适的核函数对于模型的性能至关重要。RBF（Radial Basis Function）核函数，因其强大的非线性映射能力，成为了SVM中使用最广泛的核函数之一。RBF核函数的优越性使得它在众多应用中都表现得尤为出色。下面我们将详细探讨为什么RBF核函数是最常用的选择。

2025-05-12 16:16:27 555

原创池化层与卷积层之间的关系

卷积神经网络（Convolutional Neural Network, CNN）是深度学习中一种非常重要的网络结构，广泛应用于图像分类、目标检测、语音识别等任务。CNN 的突出优势在于能够有效地从原始数据（通常是图像）中自动学习到丰富、抽象且具有判别力的特征。而在 CNN 中，卷积层（Convolutional Layer）和池化层（Pooling Layer）是最核心的两种层次结构，它们通过不同的操作机制相互配合，为后续的网络层提供高质量的特征表示。下面将对卷积层与池化层的原理、作用、彼此间的协作关系等

2025-05-12 16:15:31 1019

原创 Transformer与CNN、RNN的区别

在深度学习的发展过程中，卷积神经网络（CNN）、递归神经网络（RNN）和Transformer是三种非常重要的模型架构，它们分别在图像处理、序列建模和自然语言处理等领域取得了巨大的成功。尽管它们都属于神经网络的一种形式，但它们的工作原理、应用场景和优缺点存在显著差异。本文将从多个维度详细比较Transformer、CNN和RNN，探讨它们的区别以及各自在不同任务中的优势和劣势。

2025-05-12 16:13:40 1018

原创为什么Transformer要进行位置编码

Transformer模型以自注意力机制（Self-Attention）为核心，通过并行化计算在序列建模任务中表现卓越。然而，与递归神经网络（RNN）或卷积神经网络（CNN）不同，Transformer没有内置的顺序处理能力，即它并不知道序列中各个位置的先后顺序。为了解决这一问题，Transformer需要显式地引入序列的位置信息，这就是位置编码（Positional Encoding）的主要动机。下面将从模型原理、位置编码的数学形式以及它在Transformer中的重要作用等方面进行详细阐述。

2025-04-29 15:01:54 852

原创为什么注意力机制中要除以 $\sqrt{d_k}$ 而不是 $d_k$

注意力机制中的d_k有什么用

2025-04-29 14:59:27 756

原创单头与多头注意力机制

在Transformer模型中，注意力机制是核心组成部分，而在自注意力机制（Self-Attention）中，单头注意力（Single-head Attention）和多头注意力（Multi-head Attention）是两种重要的注意力计算方式。它们虽然在本质上都属于注意力机制，但在计算方式、能力表现和应用场景上有显著的差异。本文将详细探讨这两种机制的工作原理、区别、应用场景以及如何选择适合的注意力方式。

2025-04-25 16:35:13 1214 1

原创灾难性遗忘及其解决方法

在深度学习和神经网络领域，灾难性遗忘（Catastrophic Forgetting）是指模型在学习新任务时，出现原本已学到的旧任务的知识丧失现象。特别是在连续学习（Continual Learning）或者增量学习（Incremental Learning）中，模型随着新任务的学习，往往会忘记之前学到的内容，这种现象称为灾难性遗忘。灾难性遗忘是深度学习中的一个重要问题，尤其是在终身学习（Lifelong Learning）任务中，如何让模型在不断学习新任务的同时，保持对旧任务的记忆，是一个亟待解决的挑战。

2025-04-25 16:31:43 1286 1

原创 SVM的相关原理

其中，(|\mathbf{x}_i - \mathbf{x}_j|_1) 是输入向量 (\mathbf{x}_i) 和 (\mathbf{y}_i) 之间的曼哈顿距离（即坐标轴方向上的距离），(\sigma) 是一个参数，控制拉普拉斯分布的宽度。其中，(|\mathbf{x}_i - \mathbf{x}_j|_1) 是输入向量 (\mathbf{x}_i) 和 (\mathbf{y}_i) 之间的曼哈顿距离（即坐标轴方向上的距离），(\sigma) 是一个参数，控制拉普拉斯分布的宽度。

2025-04-25 16:25:03 680

原创从今天起，不定期分享个人的机器学习和算法笔记，有部分参考网页上的各位大佬的资料，已注明对应链接

其中，$\|\mathbf{x}_i - \mathbf{x}_j\|_1$ 是输入向量 $\mathbf{x}_i$ 和 $\mathbf{y}_i$ 之间的曼哈顿距离（即坐标轴方向上的距离），$\sigma$ 是一个参数，控制拉普拉斯分布的宽度。其中，$\|\mathbf{x}_i, \mathbf{x}_j\|$ 是输入向量 $\mathbf{x}_i$ 和 $\mathbf{y}_i$ 之间的欧几里得距离，$\sigma$ 是一个参数，控制高斯分布的宽度。

2025-04-21 11:51:21 379

qq_58768836的博客