snoopy_21-优快云博客

原创 LLM: 从0搭建LLM(基于 LLaMA2)Pretrain和SFTtrain

参考教程从0搭建LLM(基于LLaMA2)

2025-12-23 18:14:19 613

原创 LLM中MoE: 混合专家模型

MoE模型就是：把一个巨大的全能大脑，拆分成了一个由“分诊台”指挥的“专家团队”。它让AI变得更博学（总参数量大），同时又保持了反应灵敏（实际计算量小）。这就是为什么现在的顶尖大模型都在往MoE方向发展的原因！怎么样，这样解释是不是好理解多了？MoE的训练其实就是在“让专家学好”和“让大家都有活干”之间找平衡。没有预设标签：专家擅长什么，是自己“卷”出来的，不是人指定的。路由器也要学：不仅要训专家，还要训路由器。强制负载均衡。

2025-12-23 14:37:31 490

原创 LLM高效微调：Adapt Tuning、Prefix Tuning、LoRA

特性Adapter Tuning (外挂装备)Prefix Tuning (催眠暗示)形象比喻加转接头植入潜意识/小抄修改位置在层与层之间插入新模块在 Attention 的 K/V 前拼接虚拟Token模型结构改变了(层数变多了)没变(只是输入变长了)推理速度变慢(多了计算步骤)不变(几乎无感)上下文长度不影响变短(Prefix 占坑位)当前地位LoRA 的前身P-Tuning 的基础方法核心操作插入位置形象比喻优缺点在 Attention 的 K/V 前拼向量每一层催眠暗示。

2025-12-22 23:22:27 347

原创 LLM什么是SFT，RLHF，以及DPO

特性SFT (有监督微调)RLHF (强化学习对齐)DPO (直接偏好优化)比喻背课文教练根据表现给糖吃做选择题 (A比B好)数据格式{问题, 标准答案}{问题, 回答A, 回答B, A好于B}{问题, 回答A, 回答B, A好于B}核心机制模仿学习 (Cross Entropy)训练奖励模型 -> PPO 强化学习直接在偏好数据上优化概率差复杂度低极高(不稳定、慢)中等(稳定、快)显存需求1倍4倍左右2倍左右 (需加载参考模型)地位基础必修课曾经的王者 (GPT-4早期技术)

2025-12-22 15:02:19 534

原创 LLM中分组查询注意力机制（Grouped-Query Attention, GQA）

模式全称结构 (Q : KV)显存占用效果 (智商)代表模型MHA1 : 1(很多头对很多KV)巨大 (贵)⭐⭐⭐⭐⭐MQAN : 1(很多头对1个KV)极小 (省)⭐⭐⭐StarCoderGQAN : M(分组共享)适中⭐⭐⭐⭐✨LLaMA-2/3, MistralGQA 就是在**“效果”和“速度/显存”**之间找到的最佳平衡点。现在的开源大模型如果不发 GQA，出门都不好意思跟人打招呼。

2025-12-20 21:43:31 911

原创在LLM中为什么用RMSNorm，可不可以分母为L2 Norm

用 RMSNorm是因为它是 LayerNorm 的简化版，去掉了不必要的“减均值”操作，速度更快且效果相当。不能直接用 L2 Norm，因为在大维度下会导致数值过小，模型难以训练。如果用 L2 Norm 并乘以d\sqrt{d}d，那么它本质上就是 RMSNorm。好的，我们用数学推导来直观地看一下，这个1dd1到底是怎么把ddd“消灭”掉的。假设神经元的值是随机分布的。1d⏟RMS定义引入×∑i1dxi2⏟随维度d线性增长≈1d×d⋅。

2025-12-20 21:35:12 695

原创 LLM中位置编码

位置编码是怎么和词向量结合的呢？非常简单：直接相加！最终输入向量 = 词的含义向量 + 词的位置向量名片上写的“我是谁”（比如：我是“苹果”）。名片上印的“我的地址”（比如：我在句子的第3个位置）。模型拿到这张名片后，既知道了这个词是什么，也知道了它在哪里。如何理解 Transformer 的位置编码？为什么需要它？因为 Transformer 的核心 Attention 机制是“秩序盲”，无法感知单词的顺序。它是什么？它是一个独特的、由sin和cos。

2025-12-19 22:24:49 645

原创物体检测评估函数 AP mAP

例子来自 https://zhuanlan.zhihu.com/p/94597205，请先查看这个例子因为计算类别A的PR曲线需要根据所有图片中的预测框score进行排序(以数据集为单位计算PR曲线)，但TP、FP却是需要在每张图片中单独计算(以图片为单位计算TP、FP)，所以我们需要建立一个数组记录每个图片中所有预测框的TP和score。假设现在数据集中一共有5张图片，①第1张图片中有2个A类别的gt，有三个A类别的预测框，score分别为(0.3, 0.5, 0.9)，按照上述计算TP的方法(按.

2022-02-13 14:07:04 2128

原创 Python RabbitMQ/Pika 长连接断开报错Connection reset by peer和pop from an empty deque

ConnectionResetError(104, ‘Connection reset by peer’)我们经常使用如下脚本监听MQ，它在阿里云上工作正常，但是在本地不能保持长连接，会提示报错： ConnectionResetError(104, ‘Connection reset by peer’)Code mq1.py """@author: Zhigang Jiang@date: 2022/1/16@description:We usually use this script to l

2022-01-20 12:27:49 11546 7

原创 CenterNet笔记

Loss损失含义：其实比较简单，真实值Yxyc=1Y_{x y c}=1Yxyc=1时，有(1−Y^xyc)αlog⁡(Y^xyc)\left(1-\hat{Y}_{x y c}\right)^{\alpha} \log \left(\hat{Y}_{x y c}\right)(1−Y^xyc)αlog(Y^xyc)，真实值Yxyc=0Y_{x y c}=0Yxyc=0时，有(Y^xyc)αlog⁡(1−Y^xyc)\left(\hat{Y}_{x y c}\right)^{\alpha}

2021-12-16 23:50:03 400

原创使用TensorRT加速超分辨率模型Real-ESRGAN

EnvironmentGPU: Tesla T4Driver Version: 460.91.03CUDA: 11.1CuDNN: 8.0.05PyTorch: 1.8.0Python: 3.8OS: ubuntu 18.04如果安装的cuda是dev版本:nvcc --version或者ls -all /usr/local/ 查看cuda软连接的cuda版本。cat /usr/local/cuda-11.0/include/cudnn_version.h 查看cudnn版本

2021-12-07 14:22:58 4410 2

原创 nohup日志丢失恢复

当程序在使用nohup方式后台运行时:pwd/home/user/projects/project_namenohup /home/user/miniconda3/envs/env_name/bin/python main.py --cfg src/config/c.yaml > run_log/0.log 2>run_log/0_error.log &删除了nohup的日志文件0.log，发现此时并不会生成新的文件0.log，这也就导致不管是之前还是之后的日志都看不到。

2021-08-21 11:32:18 1575 3

原创完整MatterportLayout数据集处理

获取Matterport数据集申请详细访问Matterport3D官方仓库，下载申请表MP_TOS.pdf，填写说明：然后用英文简单介绍使用该数据集用途，发送给matterport3d@googlegroups.com，我当天晚上就收到回复，一般没什么问题，Matterport那边就会回复你。使用其提供的下载脚本进行下载。下载我这里提供批量下载脚本：import osimport argparseimport zipfileimport subprocessdef sh(comm

2021-07-10 21:49:13 4526 10

原创【PyTorch】Caught RuntimeError in DataLoader worker process 0和invalid argument 0: Sizes of tensors mus

报错如下：Traceback (most recent call last): File "/home/jiang/miniconda3/envs/Net/lib/python3.6/site-packages/tqdm/std.py", line 1178, in __iter__ for obj in iterable: File "/home/jiang/miniconda3/envs/Net/lib/python3.6/site-packages/torch/utils/data/

2021-07-03 19:50:57 30669 6

原创 einops可视化理解

最近在看vit_pytorch代码，看到里面有很多地方用到einops来对tensor操作，本实验结合这篇博客内容和自己一些尝试。代码colab链接import einopsimport matplotlib.pyplot as pltimport numpy as np读取一个文件夹下图片生成一个batchfrom PIL import Imageimport osimages = [np.array(Image.open('./images/'+file_name).resiz.

2021-05-16 11:53:18 642

原创【代码解读】Transformer: attention-is-all-you-need-pytorch

学习transformer时对GitHub上项目：attention-is-all-you-need-pytorch进行了部分中文注释，主要集中在以下几个文件。注释后完整代码：attention-is-all-you-need-pytorch，结合这篇文章一起理解。Models.py''' Define the Transformer model '''import torchimport torch.nn as nnimport numpy as npfrom transformer.Lay

2021-05-12 23:26:17 1730

原创【随记】g2o使用，解决2d路径回环误差为例

在slam中经常使用g2o来解决优化问题，例如BA和位姿图优化。由于网上教程需要的知识储备较多，大多数和slam问题相关，本文不涉及复杂公式，本文只是通过一个简单任务直观了解g2o在做什么的文章。好了，上图表示从0点出发经过1，2，3点，估计世界坐标分别为X0=(0,0)X_0 = (0,0)X0=(0,0)，X1=(1,1)X_1 = (1,1)X1=(1,1)，X2=(2,0)X_2 = (2,0)X2=(2,0)，X3=(1,−1)X_3 = (1,-1)X3=(1,−1)，再回到X0X_.

2021-04-03 15:05:50 1264

原创笔记：ML-LHY-GAN

视频pdf1. introductionBasic Idea of GAN注意上面最后一行是加号算法大致：随机初始化Generator参数。迭代第k次(k1=1k_1 = 1k1=1)：从真实图片中采样m笔数据：{x1,x2,…,xm}\left\{x^{1}, x^{2}, \ldots, x^{m}\right\}{x1,x2,…,xm}，标签为真从某个分布中随机采样m笔噪音数据：{z1,z2,…,zm}\left\{z^{1}, z^{2}, \ldots, z^{m.

2021-02-25 22:34:25 276

原创实验：ML-LHY-HW8:seq2seq

笔记：ML-LHY: Attention-based Model / Conditional Generation by RNN & Attention实验，本文代码在TA代码上轻微修改。Datasetdata example(train, validation, test)：it 's none of your concern . 這不關你的事。 she has a habit of bi@@ ting her na@@ ils . 她有咬指甲的習慣。 he .

2021-02-09 23:00:26 424

原创 pytorch中的NLLLoss和CrossEntropy

直接计算CrossEntropyimport torchimport torch.nn.functional as F先按照流程手动计算CrossEntropyclass_dim = 3z = torch.Tensor([[3, 1, -3]])ztensor([[ 3., 1., -3.]])softmax过程，图片来自这里y = torch.nn.Softmax(dim=1)(z)ytensor([[0.8789, 0.1189, 0.0022]])注意：交叉熵在信息论

2021-01-30 16:44:47 524 1

原创笔记：ML-LHY: ELMO, BERT, GPT

Embeddings from Language Model (ELMO)，做的是Contextualized Word EmbeddingBidirectional Encoder Representations from Transformers (BERT)，其实就是Encoder of Transformer，训练方法，以及应用示例：Sentiment analysis, Document Classification, Slot filling, Natural Language Infere.

2021-01-18 00:06:46 301

原创笔记：ML-LHY: Transformer / Self-attention

Sequence用RNN很难并行训练/推理，计算b4b^4b4时必须先计算b1,b2,b3b^1,b^2,b^3b1,b2,b3。考虑用CNN，虽然可以做到并行训练/推理，但是需要叠很多层，才能包含长序列。而使用Self-Attention，可以取得RNN，并且是可以并行计算。Self-Attention使用Self-Attention Layer，bib^ibi包含了所有输入信息，同时b1,b2,b3,b4b^1, b^2, b^3, b^4b1,b2,b3,b4可以同时计算。Atten

2021-01-17 15:21:20 259 1

原创笔记：ML-LHY: Recursive Structure

简单介绍RNN更通用的一个递归结构Recursive Structure，在Sentiment Analysis 情感分析上应用。pdf 视频Recurrent Structure and Recursive StructureSentiment Analysis 情感分析上面fff都是同一个Function(hidden layer参数一样)，循环网络可以看成是递归网络的特例。Recursive Modelf函数需要设计成这样：即输入2个词需要相乘，但是xTWxx^TWxxTW.

2021-01-17 11:17:55 249

原创笔记：ML-LHY: Attention-based Model / Conditional Generation by RNN & Attention

本节课主要介绍介绍Attention基础，Attention在Memory上2个位置应用：1.Attention on Sensory Information(包括在sequence:Translation,Speech Recognition,Caption Generation,Question Answering和image上示例)2.Attention on Memory(介绍Neural Turing Machine和Stack RNN)pdf 视频AttentionAttent.

2021-01-16 12:50:30 336

原创多视图几何：相机内外参数

世界坐标系(word)：Xw,Yw,ZwX_w, Y_w, Z_wXw,Yw,Zw摄像机坐标系(camera)：Xc,Yc,ZcX_c, Y_c, Z_cXc,Yc,Zc图像坐标系(image)：x,yx, yx,y像素坐标系(pixel)：u,vu, vu,v光轴(optical axis)：ZcZ_cZc为相机的光轴——通过投影中心并且垂直于像平面的直线主点(principal point)：光轴与像平面的交点被称为像主点word to camera设某点在world中的坐.

2021-01-12 23:45:49 627

原创离散余弦变换推导(DCT、IDCT)

待填参考详解离散余弦变换（DCT）

2021-01-05 23:13:56 2324 2

原创离散傅立叶变换推导(DF、IDFT)

mazonex离散傅立叶变换视频笔记需要先了解傅里叶变换周期为2π2\pi2π的函数的复数形式展开(傅里叶级数)在上一篇文章中part4中提到周期T=2LT=2LT=2L函数的复数形式展开为：f(t)=∑n=−∞∞Cneinωt(1.1)\begin{aligned}f(t) &=\sum_{n=-\infty}^{\infty} C_{n} e^{i n \omega t}\end{aligned}\tag{1.1}f(t)=n=−∞∑∞Cneinωt(1.1)其中，.

2021-01-05 22:19:03 2559

原创傅里叶变换推导(FT、IFT)

part1: 三角函数的正交性三角函数系{0,1,sin⁡x,cos⁡x,sin⁡2x,cos⁡2x,⋯ ,sin⁡nx,cos⁡nx}\{0,1, \sin x, \cos x, \sin 2x, \cos 2 x, \cdots ,\sin nx, \cos nx \}{0,1,sinx,cosx,sin2x,cos2x,⋯,sinnx,cosnx}其中，0=sin⁡0x0=\sin 0x0=sin0x，1=cos⁡0x1=\cos 0x1=cos0x，n=0,1,2⋯n = 0,1,2\cdot

2021-01-03 13:49:04 5373

原创论文笔记：AtlantaNet(ECCV 2020)

本文方法基于Atlanta假设，其只要求墙垂直于地面。布局预测和房间高度估计都是基于天花板和地板的2个透视图。预测布局使用RNN，并且利用一个基于专家知识的自定义训练策略。本文重点是支持复杂布局，墙角很多甚至是曲面墙角。Introduction以往方法：LayoutNet、DulaNet、HorizonNet，需要Manhattan假设进行费时的预处理和后处理。Atlanta假设不需要墙与墙互相垂直。布局预测和房间高度估计都是基于天花板和地板的2个透视图。预测布局使用RNN，并且利用一个基于专家.

2020-12-27 00:59:13 637 2

jsp手游测评网站

空空如也