自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

upup

upup

  • 博客(149)
  • 资源 (1)
  • 收藏
  • 关注

原创 LLM: 从0搭建LLM(基于 LLaMA2)Pretrain和SFTtrain

参考教程从0搭建LLM(基于LLaMA2)

2025-12-23 18:14:19 613

原创 LLM中MoE: 混合专家模型

MoE模型就是:把一个巨大的全能大脑,拆分成了一个由“分诊台”指挥的“专家团队”。它让AI变得更博学(总参数量大),同时又保持了反应灵敏(实际计算量小)。这就是为什么现在的顶尖大模型都在往MoE方向发展的原因!怎么样,这样解释是不是好理解多了?MoE的训练其实就是在“让专家学好”和“让大家都有活干”之间找平衡。没有预设标签:专家擅长什么,是自己“卷”出来的,不是人指定的。路由器也要学:不仅要训专家,还要训路由器。强制负载均衡。

2025-12-23 14:37:31 490

原创 LLM高效微调:Adapt Tuning、Prefix Tuning、LoRA

特性Adapter Tuning (外挂装备)Prefix Tuning (催眠暗示)形象比喻加转接头植入潜意识/小抄修改位置在层与层之间插入新模块在 Attention 的 K/V 前拼接虚拟Token模型结构改变了(层数变多了)没变(只是输入变长了)推理速度变慢(多了计算步骤)不变(几乎无感)上下文长度不影响变短(Prefix 占坑位)当前地位LoRA 的前身P-Tuning 的基础方法核心操作插入位置形象比喻优缺点在 Attention 的 K/V 前拼向量每一层催眠暗示。

2025-12-22 23:22:27 347

原创 LLM什么是SFT,RLHF,以及DPO

特性SFT (有监督微调)RLHF (强化学习对齐)DPO (直接偏好优化)比喻背课文教练根据表现给糖吃做选择题 (A比B好)数据格式{问题, 标准答案}{问题, 回答A, 回答B, A好于B}{问题, 回答A, 回答B, A好于B}核心机制模仿学习 (Cross Entropy)训练奖励模型 -> PPO 强化学习直接在偏好数据上优化概率差复杂度低极高(不稳定、慢)中等(稳定、快)显存需求1倍4倍左右2倍左右 (需加载参考模型)地位基础必修课曾经的王者 (GPT-4早期技术)

2025-12-22 15:02:19 534

原创 LLM中分组查询注意力机制(Grouped-Query Attention, GQA)

模式全称结构 (Q : KV)显存占用效果 (智商)代表模型MHA1 : 1(很多头对很多KV)巨大 (贵)⭐⭐⭐⭐⭐MQAN : 1(很多头对1个KV)极小 (省)⭐⭐⭐StarCoderGQAN : M(分组共享)适中⭐⭐⭐⭐✨LLaMA-2/3, MistralGQA 就是在**“效果”和“速度/显存”**之间找到的最佳平衡点。现在的开源大模型如果不发 GQA,出门都不好意思跟人打招呼。

2025-12-20 21:43:31 911

原创 在LLM中为什么用RMSNorm,可不可以分母为L2 Norm

用 RMSNorm是因为它是 LayerNorm 的简化版,去掉了不必要的“减均值”操作,速度更快且效果相当。不能直接用 L2 Norm,因为在大维度下会导致数值过小,模型难以训练。如果用 L2 Norm 并乘以d\sqrt{d}d​,那么它本质上就是 RMSNorm。好的,我们用数学推导来直观地看一下,这个1dd1​到底是怎么把ddd“消灭”掉的。假设神经元的值是随机分布的。1d⏟RMS定义引入×∑i1dxi2⏟随维度d线性增长≈1d×d⋅。

2025-12-20 21:35:12 695

原创 LLM中位置编码

位置编码是怎么和词向量结合的呢?非常简单:直接相加!最终输入向量 = 词的含义向量 + 词的位置向量名片上写的“我是谁”(比如:我是“苹果”)。名片上印的“我的地址”(比如:我在句子的第3个位置)。模型拿到这张名片后,既知道了这个词是什么,也知道了它在哪里。如何理解 Transformer 的位置编码?为什么需要它?因为 Transformer 的核心 Attention 机制是“秩序盲”,无法感知单词的顺序。它是什么?它是一个独特的、由sin和cos。

2025-12-19 22:24:49 645

原创 物体检测评估函数 AP mAP

例子来自 https://zhuanlan.zhihu.com/p/94597205,请先查看这个例子因为计算类别A的PR曲线需要根据所有图片中的预测框score进行排序(以数据集为单位计算PR曲线),但TP、FP却是需要在每张图片中单独计算(以图片为单位计算TP、FP),所以我们需要建立一个数组记录每个图片中所有预测框的TP和score。假设现在数据集中一共有5张图片,①第1张图片中有2个A类别的gt,有三个A类别的预测框,score分别为(0.3, 0.5, 0.9),按照上述计算TP的方法(按.

2022-02-13 14:07:04 2128

原创 Python RabbitMQ/Pika 长连接断开报错Connection reset by peer和pop from an empty deque

ConnectionResetError(104, ‘Connection reset by peer’)我们经常使用如下脚本监听MQ,它在阿里云上工作正常,但是在本地不能保持长连接,会提示报错: ConnectionResetError(104, ‘Connection reset by peer’)Code mq1.py """@author: Zhigang Jiang@date: 2022/1/16@description:We usually use this script to l

2022-01-20 12:27:49 11546 7

原创 CenterNet笔记

Loss损失含义:其实比较简单,真实值Yxyc=1Y_{x y c}=1Yxyc​=1时,有(1−Y^xyc)αlog⁡(Y^xyc)\left(1-\hat{Y}_{x y c}\right)^{\alpha} \log \left(\hat{Y}_{x y c}\right)(1−Y^xyc​)αlog(Y^xyc​),真实值Yxyc=0Y_{x y c}=0Yxyc​=0时,有(Y^xyc)αlog⁡(1−Y^xyc)\left(\hat{Y}_{x y c}\right)^{\alpha}

2021-12-16 23:50:03 400

原创 使用TensorRT加速超分辨率模型Real-ESRGAN

EnvironmentGPU: Tesla T4Driver Version: 460.91.03CUDA: 11.1CuDNN: 8.0.05PyTorch: 1.8.0Python: 3.8OS: ubuntu 18.04如果安装的cuda是dev版本:nvcc --version或者ls -all /usr/local/ 查看cuda软连接的cuda版本。cat /usr/local/cuda-11.0/include/cudnn_version.h 查看cudnn版本

2021-12-07 14:22:58 4410 2

原创 nohup日志丢失恢复

当程序在使用nohup方式后台运行时:pwd/home/user/projects/project_namenohup /home/user/miniconda3/envs/env_name/bin/python main.py --cfg src/config/c.yaml > run_log/0.log 2>run_log/0_error.log &删除了nohup的日志文件0.log,发现此时并不会生成新的文件0.log,这也就导致不管是之前还是之后的日志都看不到。

2021-08-21 11:32:18 1575 3

原创 完整MatterportLayout数据集处理

获取Matterport数据集申请详细访问Matterport3D官方仓库,下载申请表MP_TOS.pdf,填写说明:然后用英文简单介绍使用该数据集用途,发送给matterport3d@googlegroups.com,我当天晚上就收到回复,一般没什么问题,Matterport那边就会回复你。使用其提供的下载脚本进行下载。下载我这里提供批量下载脚本:import osimport argparseimport zipfileimport subprocessdef sh(comm

2021-07-10 21:49:13 4526 10

原创 【PyTorch】Caught RuntimeError in DataLoader worker process 0和invalid argument 0: Sizes of tensors mus

报错如下:Traceback (most recent call last): File "/home/jiang/miniconda3/envs/Net/lib/python3.6/site-packages/tqdm/std.py", line 1178, in __iter__ for obj in iterable: File "/home/jiang/miniconda3/envs/Net/lib/python3.6/site-packages/torch/utils/data/

2021-07-03 19:50:57 30669 6

原创 einops可视化理解

最近在看vit_pytorch代码,看到里面有很多地方用到einops来对tensor操作,本实验结合这篇博客内容和自己一些尝试。代码colab链接import einopsimport matplotlib.pyplot as pltimport numpy as np读取一个文件夹下图片生成一个batchfrom PIL import Imageimport osimages = [np.array(Image.open('./images/'+file_name).resiz.

2021-05-16 11:53:18 642

原创 【代码解读】Transformer: attention-is-all-you-need-pytorch

学习transformer时对GitHub上项目:attention-is-all-you-need-pytorch进行了部分中文注释,主要集中在以下几个文件。注释后完整代码:attention-is-all-you-need-pytorch,结合这篇文章一起理解。Models.py''' Define the Transformer model '''import torchimport torch.nn as nnimport numpy as npfrom transformer.Lay

2021-05-12 23:26:17 1730

原创 【随记】g2o使用,解决2d路径回环误差为例

在slam中经常使用g2o来解决优化问题,例如BA和位姿图优化。由于网上教程需要的知识储备较多,大多数和slam问题相关,本文不涉及复杂公式,本文只是通过一个简单任务直观了解g2o在做什么的文章。好了,上图表示从0点出发经过1,2,3点,估计世界坐标分别为X0=(0,0)X_0 = (0,0)X0​=(0,0),X1=(1,1)X_1 = (1,1)X1​=(1,1),X2=(2,0)X_2 = (2,0)X2​=(2,0),X3=(1,−1)X_3 = (1,-1)X3​=(1,−1),再回到X0X_.

2021-04-03 15:05:50 1264

原创 笔记:ML-LHY-GAN

视频pdf1. introductionBasic Idea of GAN注意上面最后一行是加号算法大致:随机初始化Generator参数。迭代第k次(k1=1k_1 = 1k1​=1):从真实图片中采样m笔数据:{x1,x2,…,xm}\left\{x^{1}, x^{2}, \ldots, x^{m}\right\}{x1,x2,…,xm},标签为真从某个分布中随机采样m笔噪音数据:{z1,z2,…,zm}\left\{z^{1}, z^{2}, \ldots, z^{m.

2021-02-25 22:34:25 276

原创 实验:ML-LHY-HW8:seq2seq

笔记:ML-LHY: Attention-based Model / Conditional Generation by RNN & Attention实验,本文代码在TA代码上轻微修改。Datasetdata example(train, validation, test):it 's none of your concern . 這不關 你 的 事 。 she has a habit of bi@@ ting her na@@ ils . 她 有 咬 指甲 的 習慣 。 he .

2021-02-09 23:00:26 424

原创 pytorch中的NLLLoss和CrossEntropy

直接计算CrossEntropyimport torchimport torch.nn.functional as F先按照流程手动计算CrossEntropyclass_dim = 3z = torch.Tensor([[3, 1, -3]])ztensor([[ 3., 1., -3.]])softmax过程,图片来自这里y = torch.nn.Softmax(dim=1)(z)ytensor([[0.8789, 0.1189, 0.0022]])注意:交叉熵在信息论

2021-01-30 16:44:47 524 1

原创 笔记:ML-LHY: ELMO, BERT, GPT

Embeddings from Language Model (ELMO),做的是Contextualized Word EmbeddingBidirectional Encoder Representations from Transformers (BERT),其实就是Encoder of Transformer,训练方法,以及应用示例:Sentiment analysis, Document Classification, Slot filling, Natural Language Infere.

2021-01-18 00:06:46 301

原创 笔记:ML-LHY: Transformer / Self-attention

Sequence用RNN很难并行训练/推理,计算b4b^4b4时必须先计算b1,b2,b3b^1,b^2,b^3b1,b2,b3。考虑用CNN,虽然可以做到并行训练/推理,但是需要叠很多层,才能包含长序列。而使用Self-Attention,可以取得RNN,并且是可以并行计算。Self-Attention使用Self-Attention Layer,bib^ibi包含了所有输入信息,同时b1,b2,b3,b4b^1, b^2, b^3, b^4b1,b2,b3,b4可以同时计算。Atten

2021-01-17 15:21:20 259 1

原创 笔记:ML-LHY: Recursive Structure

简单介绍RNN更通用的一个递归结构Recursive Structure,在Sentiment Analysis 情感分析上应用。pdf 视频Recurrent Structure and Recursive StructureSentiment Analysis 情感分析上面fff都是同一个Function(hidden layer参数一样),循环网络可以看成是递归网络的特例。Recursive Modelf函数需要设计成这样:即输入2个词需要相乘,但是xTWxx^TWxxTW.

2021-01-17 11:17:55 249

原创 笔记:ML-LHY: Attention-based Model / Conditional Generation by RNN & Attention

本节课主要介绍介绍Attention基础,Attention在Memory上2个位置应用:1.Attention on Sensory Information(包括在sequence:Translation,Speech Recognition,Caption Generation,Question Answering和image上示例)2.Attention on Memory(介绍Neural Turing Machine和Stack RNN)pdf 视频AttentionAttent.

2021-01-16 12:50:30 336

原创 多视图几何:相机内外参数

世界坐标系(word):Xw,Yw,ZwX_w, Y_w, Z_wXw​,Yw​,Zw​摄像机坐标系(camera):Xc,Yc,ZcX_c, Y_c, Z_cXc​,Yc​,Zc​图像坐标系(image):x,yx, yx,y像素坐标系(pixel):u,vu, vu,v光轴(optical axis):ZcZ_cZc​为相机的光轴——通过投影中心并且垂直于像平面的直线主点(principal point):光轴与像平面的交点被称为像主点word to camera设某点在world中的坐.

2021-01-12 23:45:49 627

原创 离散余弦变换推导(DCT、IDCT)

待填参考详解离散余弦变换(DCT)

2021-01-05 23:13:56 2324 2

原创 离散傅立叶变换推导(DF、IDFT)

mazonex离散傅立叶变换视频笔记需要先了解傅里叶变换周期为2π2\pi2π的函数的复数形式展开(傅里叶级数)在上一篇文章中part4中提到周期T=2LT=2LT=2L函数的复数形式展开为:f(t)=∑n=−∞∞Cneinωt(1.1)\begin{aligned}f(t) &=\sum_{n=-\infty}^{\infty} C_{n} e^{i n \omega t}\end{aligned}\tag{1.1}f(t)​=n=−∞∑∞​Cn​einωt​(1.1)其中,.

2021-01-05 22:19:03 2559

原创 傅里叶变换推导(FT、IFT)

part1: 三角函数的正交性三角函数系{0,1,sin⁡x,cos⁡x,sin⁡2x,cos⁡2x,⋯ ,sin⁡nx,cos⁡nx}\{0,1, \sin x, \cos x, \sin 2x, \cos 2 x, \cdots ,\sin nx, \cos nx \}{0,1,sinx,cosx,sin2x,cos2x,⋯,sinnx,cosnx}其中,0=sin⁡0x0=\sin 0x0=sin0x,1=cos⁡0x1=\cos 0x1=cos0x,n=0,1,2⋯n = 0,1,2\cdot

2021-01-03 13:49:04 5373

原创 论文笔记:AtlantaNet(ECCV 2020)

本文方法基于Atlanta假设,其只要求墙垂直于地面。布局预测和房间高度估计都是基于天花板和地板的2个透视图。预测布局使用RNN,并且利用一个基于专家知识的自定义训练策略。本文重点是支持复杂布局,墙角很多甚至是曲面墙角。Introduction以往方法:LayoutNet、DulaNet、HorizonNet,需要Manhattan假设进行费时的预处理和后处理。Atlanta假设不需要墙与墙互相垂直。布局预测和房间高度估计都是基于天花板和地板的2个透视图。预测布局使用RNN,并且利用一个基于专家.

2020-12-27 00:59:13 637 2

原创 论文笔记:Revisiting Single Image Depth Estimation: Toward Higher Resolution Maps with ...(WACV2019)

以往方法往往深度预测损失了分辨率或者在边界存在扭曲和模糊问题。本文提出2个改进:1. 不同尺度下提取特征的策略 2. 使用3个损失,分别是深度、梯度、法向量c:当前最好模型,存在物体形状扭曲、小物体缺失、马赛克Introduction早期:比如Eigen提出的,直接cnn预测,分辨率很低目前:上投影(up-projection)上采样方法CRF结合CNN,端到端学习联合多任务学习近期:扩张卷积(dilated convolution)本文模型结构:4个模块:E:encoder和.

2020-12-20 23:57:02 2194 10

原创 论文笔记:Joint 3D Layout and Depth Prediction from a Single Indoor Panorama Image(ECCV 2020)

本文利用布局深度图(layout depth map)将深度估计和布局预测相结合。在2个任务上都取得了进步。Introduction布局预测:利用边、角、2D的透视图(比如天花板视图),或者假设房间布局时矩形,或者假设Manhattan布局。深度估计:利用法线、平面???、语义线索。但是,上面方法只考虑了几何假设,而忽略了布局和深度信息的互补特征。本文利用中间层:layout depth map(只包含墙、天花板、地板),移除了房间内物体,上图c。互补性:对于布局预测,深度信息的使用减少杂.

2020-12-16 22:34:18 884 1

原创 论文笔记:DuLa-Net(CVPR 2019)

DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama (CVPR 2019)pdf下载 项目地址使用等距全景图和透视天花板图,各自一个encode-decoder分支,提出新颖的2分支特征融合方法。对于多角度复杂布局的房间效果较好。主要贡献提出在2个视图上进行2分支端到端学习,最后2分支进行特征融合。NN直接输出二维平面图的概率图。后处理比较少。引入Realt

2020-12-09 23:44:19 1063 1

原创 论文笔记:LayoutNet(CVPR 2018)

LayoutNet: Reconstructing the 3D Room Layout From a Single RGB Image(CVPR 2018)pdf下载 项目地址(原) 项目地址(pytorch)LayoutNet是直接在全景图上预测房间布局具有代表性的模型,模型结构和RoomNet类似,但是基于消失点对齐改进了准确度。将结构和Manhattan布局对齐。LayoutNet能够预测盒形布局和更普通的布局(比如L形)Contributions提出通用的从RGB图像恢复Manha

2020-12-09 23:43:55 1717 1

原创 论文笔记:IndoorNet(2020)

IndoorNet: Generating Indoor Layouts from a Single Panorama Image(2020)pdf下载本文以全景图和曼哈顿线共同作为输入,构建一个端到端的模型。输出2个预测,分别是墙角和上下墙线。Related Work从图片恢复布局有以下区分:图片数量透视或全景图房间形状(4个墙角的矩形、多余4个墙角的复杂形状)几何学的使用最近开始使用FCNN取代传统使用几何方法。RoomNet首次实现透视图恢复房间结构功能。PanoCon

2020-12-09 23:42:36 468

原创 论文笔记:SphereNet(ECCV 2018)

SphereNet是适应全景图的卷积方式(学习框架),他通过扭曲卷积核元素的位置来抵消全景图的扭曲。SphereNet可以将透视图训练得到到的模型迁移在全景图上。 核心思想和EquiConvs类似。改进采样方式,使用球面平均采样避免在全景图上靠近极点的地方过采样。Introduction为什么要提出SphereNet?全景图正常是投影在球面的,此时不会扭曲。当时显示设备是2D,所以要把一个球面图像投影2D平面就需要做等距投影(equirectangular projection),此时这个图像称.

2020-12-09 23:29:59 2185 5

原创 论文笔记:Corners for layout: End-to-end layout recovery from 360 images(CFL EquiConvs)(RAL 2020)

本文方法侧重2点改进:1.以往方法依赖假设,比如房间限制是个box或者是manhattan布局,通用性被限制2.实时性,以往方法可能无法满足机器人导航和AR/VR需求使用EquiConvs(本文重点),一种直接应用在球面投影图像上以解决扭曲问题项目地址INTRODUCTION布局估计应用场景:AR/VR、机器人导航、房地产。Manhattan假设或者布局简化box-shaped layouts,不能很好拟合丰富的室内布局。传统相机视野受限,所以要使用FOV=360的全局相机,但是全景图.

2020-12-06 14:32:07 961 5

原创 论文笔记 :Geometric Reasoning for Single Image Structure Recovery David(Orientation Map算法)(CVPR 2009)

恢复室内布局,传统方法主要分为3个步骤:线段检测和估计消失点、生成布局假设、对假设进行打分,方向图可以作为布局打分重要部分。墙角分为3类:凸角convex(+)corners.凹角concave(-)corners.遮挡角occluding(>)corners.所有房间布局可由这3种基本类别进行组合。进一步根据消失点划分3个区域(视角不同),每个区域只有凸角、凹角、遮挡角1、遮挡角2,这4种类型的墙角所以在进行线段检测和消失点估计后,先寻找一对平行线段(在3D空间,在透视图中是交于同

2020-12-05 15:39:26 593

原创 论文笔记:GEOMETRIC CONTEXT AND ORIENTATION MAP COMBINATION FOR INDOOR CORRIDOR MODELING USING A SINGLE I

GEOMETRIC CONTEXT AND ORIENTATION MAP COMBINATION FOR INDOOR CORRIDOR MODELING USING A SINGLE IMAGE(International Archives of the Photogrammetry, Remote Sensing & Spatial Information Sciences 2016)传统方法恢复房间布局,本文侧重对走廊图片进行布局恢复,主要分以下步骤:消失点估计,基于消失点的布局生成,布

2020-12-02 23:26:12 464

原创 【温故知新】Least Squares、Ransac、Gradient Descent、PCA 拟合直线(附c++代码)

Least Squares对于2维数据点,待求参数为(k,b)(k,b)(k,b)。即求直线y=kx+by=kx+by=kx+b拟合数据点(x1,y1)......(xi,yi)\left(x_{1}, y_{1}\right) .... . .\left(x_{i}, y_{i}\right)(x1​,y1​)......(xi​,yi​),截距式不能表示竖直直线。最小二乘法,又称最小平方法。它通过最小化误差的平方和寻找数据的最佳函数匹配求点到直线的误差平方和:f=∑i=1n(yi−k∗xi

2020-12-02 00:13:39 1366

原创 数字图像处理:霍夫变换(Hough Transform)

直线检测图像空间的直线可以在霍夫空间中表示为一个点,同样的,图像空间的点可以在霍夫空间表示为一条直线。而图像空间多个点在霍夫空间就表示为多条直线。观察上图发现,如果在图像空间中的点共线,那么在霍夫空间中对应的直线将相交,交点即为图像空间中直线的斜率kkk和截距qqq。当在图像空间中存在多个直线时,那么在霍夫空间就会有多个交点。采用投票方法计算交点得票(处理误差可使用NMS),当得票大于给定阈值,则认为在图像空间中检测到直线。但是使用斜距式表示直线存在缺点:当直线存在xxx轴时,斜率∞\i

2020-11-29 00:09:28 3407

jsp手游测评网站

jsp完整,手机游戏测评网站,可以登录注册评论 jsp完整,手机游戏测评网站,可以登录注册评论

2018-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除