- 博客(17)
- 收藏
- 关注
原创 【强化学习】PPO算法
*PPO算法(近端策略优化,Proximal Policy Optimization)**是一种在强化学习领域广泛应用的策略梯度方法,由OpenAI于2017年提出。它通过限制策略更新的幅度,解决了传统策略梯度方法中训练不稳定的问题,在多个领域展现出卓越的性能。PPO通过裁剪目标函数平衡了策略更新的探索与利用,成为强化学习领域的主流算法之一。
2025-10-12 21:47:42
409
原创 深入理解 LLM 分词器:BPE、WordPiece 与 Unigram
大模型中的分词是将文本转换为可处理离散单元(tokens)的关键步骤。现代模型主要采用子词(subword)分词算法,如BPE、WordPiece和Unigram。
2025-09-30 23:55:48
794
原创 Llama 模型架构解析:从 Pre-RMSNorm 到 GQA 的技术演进
Llama是由Meta AI研发的开源大语言模型系列,采用Decoder-only的Transformer架构,并进行了多项优化。其核心改进包括:1) 使用Pre-RMSNorm前置层归一化,结合RMSNorm方法提升稳定性;2) 采用旋转位置编码(RoPE)增强长距离依赖建模;3) 引入分组查询注意力(GQA)平衡计算效率与模型质量;4) 使用SwiGLU激活函数替代传统ReLU,提高特征表达能力。这些技术创新使Llama在保持高效推理的同时,具有较强的语义理解能力。
2025-09-28 16:53:59
923
1
原创 从GPT-1到GPT-3:生成式预训练语言模型的演进之路
本文系统梳理了OpenAI GPT系列模型从GPT-1到GPT-3的核心技术演进。GPT-1首次提出“无监督预训练 + 有监督微调”的两阶段范式,基于单向Transformer解码器实现多任务自然语言理解;GPT-2通过扩大模型规模与采用字节级BPE分词器,摒弃任务特定微调,转向零样本学习,仅依靠自然语言提示即可泛化至多种任务;GPT-3进一步将参数规模提升至1750亿,全面拥抱上下文中的少样本(few-shot)和零样本(zero-shot)学习,展现出强大的通用语言能力。
2025-09-27 17:27:26
764
原创 位置编码(绝对位置,相对位置)
位置编码是序列建模中的关键技术,用于为模型提供元素的顺序信息。绝对位置编码为每个位置分配唯一编码,常用正弦/余弦函数。相对位置编码则关注词之间的相对距离,如Shaw等人提出的可学习嵌入表和Transformer-XL的改进方案。旋转位置编码(RoPE)通过旋转矩阵将位置信息融入向量内积,使注意力分数仅依赖相对位置差,被LLaMA等现代模型采用。这些方法各有特点,共同解决了模型对序列顺序感知的需求。
2025-09-24 13:28:31
1273
原创 深入浅出BERT:原理、架构与应用
BERT是一种基于Transformer编码器的革命性预训练语言模型,通过双向上下文学习实现深度语义表示。其核心架构采用多头自注意力机制和前馈神经网络,输入融合词、段和位置三种嵌入信息。BERT通过掩码语言模型(MLM)和下一句预测(NSP)两个任务进行预训练,学习词汇、句法和句子间关系。预训练完成后,通过添加任务头进行微调,可适配各类NLP任务。BERT的创新设计使其成为NLP领域的里程碑式模型,在多项任务中取得突破性成果。
2025-09-20 22:33:44
896
原创 GloVe(Global Vectors for Word Representation)模型详解
GloVe是一种基于全局词共现统计的词向量模型,通过构建共现矩阵并优化目标函数来学习词向量。其核心思想是利用词与词之间的共现信息捕捉语义关系,结合了全局统计和局部上下文的优势。模型采用加权损失函数抑制低频词噪声,训练效率高且适合大规模数据。与Word2Vec相比,GloVe更擅长捕捉全局语义关系,但存在静态词向量、数据依赖等局限性。GloVe适用于词义相似度计算、词类比任务及各类NLP下游任务,是高效且语义丰富的词表示方法。
2025-09-20 14:38:35
576
原创 节点电压法的一般公式
节点电压法的一般公式为:⎩⎨⎧G11u1G12u2⋯G1n−1un−1is11G21u1G22u2⋯G2n−1un−1is22⋮Gn−11u1Gn−12u2⋯Gn−1n−1un−1isn−1n−1其中:GkkkGijijGijGji。
2025-09-17 22:51:14
368
原创 分层 Softmax 详解
分层Softmax通过构建二叉树结构,将大规模词汇表的概率计算复杂度从O(|V|)降至O(log|V|)。它将标准Softmax分解为路径上的二元决策序列,每个内部节点作为二分类器,使用Sigmoid函数判断左右子节点选择概率。该方法通过路径概率连乘得到最终词概率,既保持了概率归一性,又显著提升了计算效率。相比负采样,分层Softmax更适合词汇表极大且需要精确概率的场景,可与Huffman编码结合进一步优化高频词处理。其核心优势在于将多分类转化为树形二分类问题,实现了理论优雅与计算高效性的统一。
2025-09-16 20:40:16
987
原创 概率视角下的负采样(Negative Sampling)
本文系统介绍了负采样技术在自然语言处理中的应用。负采样通过将大规模多分类问题转化为二分类任务,有效解决了传统Softmax计算复杂度高的问题。文中首先分析了Skip-gram模型中Softmax分母计算代价高的痛点,指出负采样可将复杂度从O(|V|)降至O(K)。然后从概率视角详细阐述了负采样的数学原理,包括如何通过正负样本的联合概率来近似条件概率。负采样不仅显著提高了训练效率,在实践中还保持了模型性能,成为Word2Vec等词向量模型训练的关键技术。
2025-09-16 20:39:16
604
原创 Transformer模型学习【附代码】
Transformer模型是一种基于注意力机制的深度学习架构,通过自注意力和多头注意力机制动态捕捉序列依赖关系。其核心组件包括嵌入层将离散符号转换为连续向量,以及缩放点积注意力和加性注意力两种评分函数。多头注意力机制能够从不同角度学习特征,提高模型表达能力。模型还采用掩码机制处理变长序列,并通过层归一化稳定训练过程。整体架构简洁高效,已成为自然语言处理领域的基石模型。
2025-09-14 22:57:54
959
原创 Pytorch入门
Torch是一个科学计算框架,广泛支持将GPU放在首位的机器学习算法。PyTorch是一个基于Torch的python机器学习库,底层由 C++ 实现。PyTorch 主要有两大特征:类似于 NumPy 的张量计算,能在 GPU 或 MPS 等硬件加速器上加速。基于带自动微分系统的深度神经网络。
2025-07-25 16:44:13
851
原创 分类回归任务评估指标
定义:预测为正类的样本中,实际为正类的比例。定义:实际为正类的样本中,预测为正类的比例。定义:预测正确的样本数占总样本数的比例。定义:展示分类模型预测结果的矩阵。定义:精确率和召回率的调和平均数。公式:Precision。公式:Accuracy。
2025-07-14 14:42:10
356
原创 走迷宫C++小游戏
随机障碍物的迷宫,超级好玩你将扮演一位名为「旅行者」($)的神秘角色,在自由的旅行中邂逅性格各异、能力独特的同伴们,和他们一起击败强敌,找回失散的亲人(☆)
2024-04-24 20:00:44
574
1
转载 字符串,字符数组,string输入输出scanf,gets,getchar
用户输入的字符被存放在键盘缓冲区中,直到用户按回车为止(回车字符也放在缓冲区中),当用户键入回车之后,getchar() 函数才开始从输入缓冲区中每次读取一个字符,getchar 函数的返回值是用户输入的字符的 ASCII 码,若遇到文件结尾 (End-Of-File) 则返回 -1 (EOF),并将用户输入的字符回显到屏幕,如果用户在按回车之前输入了不止一个字符,其他字符会保留在键盘缓存区中,等待后续 getchar 调用读取。读入的字符串有空格时,建议用gets。遇到空格,tab,回车都会结束输入。
2024-03-31 12:44:13
2080
1
原创 函数模板与类模板初步说明
template<class a,class b…>template<typename a,typename b…>目前都可用于函数模板和类模板,但以后可能会有新标准,最好class用于类,typename用于函数成员函数模板不能是虚函数,因为每个包含虚函数的类具有一个virtual table(vtable),包含该类的所有虚函数的地址,因此vtable的大小是确定的。成员函数模板只有被使用时才会被实例化,将其声明为虚函数会使vtable的大小不确定模板说明在函数定义之前表示这是一个函数模板 析构函数不能
2024-03-30 20:16:02
736
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅