LETTER•-优快云博客

原创【强化学习】PPO算法

*PPO算法（近端策略优化，Proximal Policy Optimization）**是一种在强化学习领域广泛应用的策略梯度方法，由OpenAI于2017年提出。它通过限制策略更新的幅度，解决了传统策略梯度方法中训练不稳定的问题，在多个领域展现出卓越的性能。PPO通过裁剪目标函数平衡了策略更新的探索与利用，成为强化学习领域的主流算法之一。

2025-10-12 21:47:42 409

原创深入理解 LLM 分词器：BPE、WordPiece 与 Unigram

大模型中的分词是将文本转换为可处理离散单元（tokens）的关键步骤。现代模型主要采用子词（subword）分词算法，如BPE、WordPiece和Unigram。

2025-09-30 23:55:48 794

原创 Llama 模型架构解析：从 Pre-RMSNorm 到 GQA 的技术演进

Llama是由Meta AI研发的开源大语言模型系列，采用Decoder-only的Transformer架构，并进行了多项优化。其核心改进包括：1) 使用Pre-RMSNorm前置层归一化，结合RMSNorm方法提升稳定性；2) 采用旋转位置编码(RoPE)增强长距离依赖建模；3) 引入分组查询注意力(GQA)平衡计算效率与模型质量；4) 使用SwiGLU激活函数替代传统ReLU，提高特征表达能力。这些技术创新使Llama在保持高效推理的同时，具有较强的语义理解能力。

2025-09-28 16:53:59 923 1

原创从GPT-1到GPT-3：生成式预训练语言模型的演进之路

本文系统梳理了OpenAI GPT系列模型从GPT-1到GPT-3的核心技术演进。GPT-1首次提出“无监督预训练 + 有监督微调”的两阶段范式，基于单向Transformer解码器实现多任务自然语言理解；GPT-2通过扩大模型规模与采用字节级BPE分词器，摒弃任务特定微调，转向零样本学习，仅依靠自然语言提示即可泛化至多种任务；GPT-3进一步将参数规模提升至1750亿，全面拥抱上下文中的少样本（few-shot）和零样本（zero-shot）学习，展现出强大的通用语言能力。

2025-09-27 17:27:26 764

原创位置编码（绝对位置，相对位置）

位置编码是序列建模中的关键技术，用于为模型提供元素的顺序信息。绝对位置编码为每个位置分配唯一编码，常用正弦/余弦函数。相对位置编码则关注词之间的相对距离，如Shaw等人提出的可学习嵌入表和Transformer-XL的改进方案。旋转位置编码(RoPE)通过旋转矩阵将位置信息融入向量内积，使注意力分数仅依赖相对位置差，被LLaMA等现代模型采用。这些方法各有特点，共同解决了模型对序列顺序感知的需求。

2025-09-24 13:28:31 1273

原创深入浅出BERT：原理、架构与应用

BERT是一种基于Transformer编码器的革命性预训练语言模型，通过双向上下文学习实现深度语义表示。其核心架构采用多头自注意力机制和前馈神经网络，输入融合词、段和位置三种嵌入信息。BERT通过掩码语言模型(MLM)和下一句预测(NSP)两个任务进行预训练，学习词汇、句法和句子间关系。预训练完成后，通过添加任务头进行微调，可适配各类NLP任务。BERT的创新设计使其成为NLP领域的里程碑式模型，在多项任务中取得突破性成果。

2025-09-20 22:33:44 896

原创 GloVe（Global Vectors for Word Representation）模型详解

GloVe是一种基于全局词共现统计的词向量模型，通过构建共现矩阵并优化目标函数来学习词向量。其核心思想是利用词与词之间的共现信息捕捉语义关系，结合了全局统计和局部上下文的优势。模型采用加权损失函数抑制低频词噪声，训练效率高且适合大规模数据。与Word2Vec相比，GloVe更擅长捕捉全局语义关系，但存在静态词向量、数据依赖等局限性。GloVe适用于词义相似度计算、词类比任务及各类NLP下游任务，是高效且语义丰富的词表示方法。

2025-09-20 14:38:35 576

原创节点电压法的一般公式

节点电压法的一般公式为：⎩⎨⎧G11u1G12u2⋯G1n−1un−1is11G21u1G22u2⋯G2n−1un−1is22⋮Gn−11u1Gn−12u2⋯Gn−1n−1un−1isn−1n−1其中：GkkkGijijGijGji。

2025-09-17 22:51:14 368

原创分层 Softmax 详解

分层Softmax通过构建二叉树结构，将大规模词汇表的概率计算复杂度从O(|V|)降至O(log|V|)。它将标准Softmax分解为路径上的二元决策序列，每个内部节点作为二分类器，使用Sigmoid函数判断左右子节点选择概率。该方法通过路径概率连乘得到最终词概率，既保持了概率归一性，又显著提升了计算效率。相比负采样，分层Softmax更适合词汇表极大且需要精确概率的场景，可与Huffman编码结合进一步优化高频词处理。其核心优势在于将多分类转化为树形二分类问题，实现了理论优雅与计算高效性的统一。

2025-09-16 20:40:16 987

原创概率视角下的负采样（Negative Sampling）

本文系统介绍了负采样技术在自然语言处理中的应用。负采样通过将大规模多分类问题转化为二分类任务，有效解决了传统Softmax计算复杂度高的问题。文中首先分析了Skip-gram模型中Softmax分母计算代价高的痛点，指出负采样可将复杂度从O(|V|)降至O(K)。然后从概率视角详细阐述了负采样的数学原理，包括如何通过正负样本的联合概率来近似条件概率。负采样不仅显著提高了训练效率，在实践中还保持了模型性能，成为Word2Vec等词向量模型训练的关键技术。

2025-09-16 20:39:16 604

原创 Transformer模型学习【附代码】

Transformer模型是一种基于注意力机制的深度学习架构，通过自注意力和多头注意力机制动态捕捉序列依赖关系。其核心组件包括嵌入层将离散符号转换为连续向量，以及缩放点积注意力和加性注意力两种评分函数。多头注意力机制能够从不同角度学习特征，提高模型表达能力。模型还采用掩码机制处理变长序列，并通过层归一化稳定训练过程。整体架构简洁高效，已成为自然语言处理领域的基石模型。

2025-09-14 22:57:54 959

原创 Pytorch入门

Torch是一个科学计算框架，广泛支持将GPU放在首位的机器学习算法。PyTorch是一个基于Torch的python机器学习库，底层由 C++ 实现。PyTorch 主要有两大特征：类似于 NumPy 的张量计算，能在 GPU 或 MPS 等硬件加速器上加速。基于带自动微分系统的深度神经网络。

2025-07-25 16:44:13 851

原创分类回归任务评估指标

定义：预测为正类的样本中，实际为正类的比例。定义：实际为正类的样本中，预测为正类的比例。定义：预测正确的样本数占总样本数的比例。定义：展示分类模型预测结果的矩阵。定义：精确率和召回率的调和平均数。公式：Precision。公式：Accuracy。

2025-07-14 14:42:10 356

原创线段树模板

【代码】线段树模板。

2024-10-19 16:46:54 188 1

原创走迷宫C++小游戏

随机障碍物的迷宫，超级好玩你将扮演一位名为「旅行者」($)的神秘角色，在自由的旅行中邂逅性格各异、能力独特的同伴们，和他们一起击败强敌，找回失散的亲人(☆)

2024-04-24 20:00:44 574 1

转载字符串，字符数组，string输入输出scanf,gets,getchar

用户输入的字符被存放在键盘缓冲区中，直到用户按回车为止（回车字符也放在缓冲区中），当用户键入回车之后，getchar() 函数才开始从输入缓冲区中每次读取一个字符，getchar 函数的返回值是用户输入的字符的 ASCII 码，若遇到文件结尾 (End-Of-File) 则返回 -1 (EOF)，并将用户输入的字符回显到屏幕，如果用户在按回车之前输入了不止一个字符，其他字符会保留在键盘缓存区中，等待后续 getchar 调用读取。读入的字符串有空格时，建议用gets。遇到空格，tab，回车都会结束输入。

2024-03-31 12:44:13 2080 1

原创函数模板与类模板初步说明

template<class a,class b…>template<typename a,typename b…>目前都可用于函数模板和类模板，但以后可能会有新标准，最好class用于类，typename用于函数成员函数模板不能是虚函数，因为每个包含虚函数的类具有一个virtual table(vtable),包含该类的所有虚函数的地址，因此vtable的大小是确定的。成员函数模板只有被使用时才会被实例化，将其声明为虚函数会使vtable的大小不确定模板说明在函数定义之前表示这是一个函数模板析构函数不能

2024-03-30 20:16:02 736 1

ALLLLLLLLLY的博客