
深度学习小知识点
文章平均质量分 90
深度学习相关知识
frostmelody
这个作者很懒,什么都没留下…
展开
-
点云技术原理概要
激光雷达(LiDAR)通过发射激光束,并测量激光束从发射、遇到物体反射后返回接收器所需的时间差(Time of Flight, ToF)。根据光速恒定的原理,可以精确计算出传感器与反射点之间的距离。结合激光发射时的精确角度信息,就能换算出反射点在三维空间中的位置坐标。计算公式如下:距离=光速×时间差2距离 = \frac{光速 \times 时间差}{2}距离=2光速×时间差激光雷达通过快速、连续地向不同方向发射激光束并接收回波,就能采集到大量这样的三维坐标点,这些点的集合便构成了点云(Point Cl原创 2025-05-22 16:02:57 · 633 阅读 · 0 评论 -
点云(point cloud):自动驾驶的“三维扫描图“
就是用很多“点”来表示一个物体或场景的三维形状和结构。(用点描绘的3D画,好比素描,但不是用线条勾勒,而是“点点点点”拼出物体形状)这正是点云的核心特征。自动驾驶汽车的“大脑”看到的就是类似这样的数据,并通过算法来解读这些点,从而“看懂”世界。在自动驾驶系统中,,是决策与规划的基础。这就依赖于。点云本质上是由激光雷达(LiDAR)等传感器扫描生成的的集合。每一个点都精确记录了物体的空间信息和表面特性。原创 2025-05-22 15:47:22 · 953 阅读 · 0 评论 -
深入浅出知识图谱
我们人类的大脑是如何存储和理解世界的?我们不是记住一堆孤立的事实,而是将各种事物、概念以及它们之间的联系编织成一张巨大的网络。比如,你知道“姚明”是一个“篮球运动员”,他也“出生于”“上海”,他“曾效力于”“休斯顿火箭队”。原创 2025-05-18 13:43:22 · 560 阅读 · 0 评论 -
KL散度 (Kullback-Leibler Divergence)
在AI和机器学习中,它不仅是理论分析的基础,也是许多算法设计(如变分自编码器VAE、策略优化RL算法如TRPO、PPO等)中的关键组成部分,用于度量信息损失、约束模型行为或指导模型学习。在RLHF中,它扮演了稳定器和安全阀的角色,确保在通过强化学习优化模型以符合人类偏好时,模型不会偏离其已学到的有用知识太远。KL散度,也称为相对熵 (Relative Entropy),是信息论中一个核心概念,用于衡量两个概率分布之间的差异。,则KL散度为无穷大,意味着如果。的一部分(或者更准确地说,是。原创 2025-05-17 16:27:05 · 769 阅读 · 0 评论 -
深入浅出图神经网络和图联邦学习
深入浅出解析图神经网络(Graph Neural Networks, GNNs)和图联邦学习(Federated Graph Learning, FGL)原创 2025-05-16 17:58:23 · 927 阅读 · 0 评论 -
深入浅出拆分学习,图神经网络拆分学习,混合联邦学习
深入浅出解析拆分学习(Split Learning)、图神经网络拆分学习(Split Learning for Graph Neural Networks)以及混合联邦学习(Hybrid Federated Learning),这三者都体现了在分布式数据环境下进行机器学习协作的思想,但各有侧重和适用场景。理解它们的区别和联系,有助于在实际应用中选择或设计更合适的解决方案。原创 2025-05-16 17:31:35 · 737 阅读 · 0 评论 -
深入浅出横向联邦学习、纵向联邦学习、联邦迁移学习
深入浅出解析横向联邦学习(Horizontal Federated Learning)、纵向联邦学习(Vertical Federated Learning)和联邦迁移学习(Federated Transfer Learning)有多个机构(比如几家不同的银行,或者几家医院)都拥有一些数据,他们希望联合起来训练一个更强大的机器学习模型,但出于隐私保护或法规要求,他们不能直接把数据共享出来。联邦学习就是为了解决这个问题而提出的。它的核心思想是“数据不动模型动”,即数据保留在本地,参与方共同训练模型。原创 2025-05-16 16:51:24 · 687 阅读 · 0 评论 -
激光雷达视觉定位是3D视觉定位吗?
激光雷达视觉定位通常被归类为,但具体来说,它是融合了和的。原创 2025-05-15 23:59:27 · 309 阅读 · 0 评论 -
什么是模态内异质性,什么是模态间异质性?
模态(Modality)指不同种类或形式的信息,如文字、图片、声音等。异质性(Heterogeneity)则表示信息之间的差异。模态内异质性(Intramodal heterogeneity)指同一种类信息内部的差异,如文字中的新闻报道与网络聊天记录,或图片中的高清彩照与模糊黑白照片。模态间异质性(Inter-modal heterogeneity)则指不同种类信息之间的差异,特别是数据样本中信息种类不全或组合不同的情况,如描述产品时有的只有图片,有的则有图片、文字和音频。总结来说,模态内异质性关注同类型信原创 2025-05-15 19:34:47 · 411 阅读 · 0 评论 -
大白话解释联邦学习
企业或组织内部,数据因存储分散、标准不一、系统或部门壁垒,导致数据像一座座孤立的岛屿,无法自由流通与整合,其潜在价值难以被充分挖掘。例如,财务部和销售部各自使用独立数据库,数据无法自动交互,需手动导出导入(原创 2025-05-13 20:40:55 · 1512 阅读 · 0 评论 -
特征偏移、标签偏移、数量偏移、概念漂移分别是什么?
特征偏移、标签偏移、数量偏移和概念漂移是描述数据统计特性变化的四个关键概念,对机器学习模型的性能和泛化能力有重要影响。特征偏移指输入特征分布变化但标签条件概率不变;标签偏移指标签分布变化但特征条件概率不变;数量偏移指不同数据源样本数量差异显著;概念漂移指特征与标签之间的映射关系发生变化。理解这些偏移类型有助于选择合适应对策略,如数据重加权、模型调整、在线学习和漂移检测。这些技术帮助模型在动态环境中持续有效,确保其适应性和演化能力。原创 2025-05-13 20:06:32 · 931 阅读 · 0 评论 -
CV和NLP领域常见模型列表
模型特点任务类型PEGASUS预训练专为摘要设计编码解码 + 噪声建模多语言支持强任务统一建模任意格式摘要长文摘要能力优秀长文+结构保持。原创 2025-04-24 16:59:20 · 591 阅读 · 0 评论 -
压缩感知Compressive Sensing
在传统信号采样中(比如奈奎斯特定理),你需要以一个足够高的频率去采样信号。但压缩感知发现,对于。你想临摹一幅画,通常会一步步照着原图细细描出来,对吧?“你其实不用画全部的细节,只画一小部分关键的点,就可以。,之后再用数学优化或深度学习方法还原原始信号。→ 让机器自己把轮廓“脑补”成完整的图像。,可以通过少量“随机投影”(即测量)来。→ 就像你用少量笔触画出一个轮廓。,就像学术世界里的“身份证”一样。(用数学或深度学习恢复完整图)直接跳转到论文的官方页面。(只采集一部分数据)原创 2025-04-17 13:45:26 · 350 阅读 · 0 评论 -
多模态大模型MLLM基础训练范式 Pre-train + Instruction FineTuning
为了在图文嵌入空间中更好地对齐视觉和文本信息。为此,使用图像-文本对(image-caption style data),表示为 (X,Ya)(\mathbf{X}, Y_a)(X,Ya),其中:下面两个公式是图文对齐预训练中核心的 语言建模概率函数 和 损失函数定义。它们共同描述了:如何让模型学会根据一张图像生成对应的文字描述,以实现图文信息在嵌入空间的对齐。p(Ya∣X)=∏i=1NaFθ(yi∣Pϕ∘Vφ(X))(1)p(Y_a|\mathbf{X}) = \prod_{i=1}^{N_a} F_原创 2025-04-15 20:52:54 · 1713 阅读 · 0 评论 -
低秩分解(Low-Rank Decomposition)
低秩分解技术旨在将高维矩阵或张量近似分解为低秩因子的乘积,从而达到降维、压缩和提取数据主要信息的目的。该方法在深度学习模型压缩、推荐系统、自然语言处理和图像处理等领域具有广泛应用。原创 2025-04-15 10:56:08 · 1083 阅读 · 0 评论 -
Transformer模型中的两种掩码
整个 Transformer 结构中涉及到的 “掩码” 类型一共有两种:① 用于区分同一个 batch 中不同长度序列是否被填充的 key padding mask;② 在训练时,Decoder 中用于模仿推理过程中在编码当前时禁止看到未来信息的 attention mask(也叫做 casual mask 或 future mask)原创 2025-04-13 20:13:06 · 698 阅读 · 0 评论 -
图像融合(Image Fusion)是什么
多模态图像融合(Multi-modal Image Fusion)将来自**不同类型成像方式或传感器(模态)**的图像进行融合,综合多种模态下的信息,如视觉、红外、雷达、MRI、CT等。图像融合(Image Fusion)将来自相同类型传感器或成像方式的多幅图像(通常内容是一样的)进行融合,提高图像清晰度、对比度、空间或时间分辨率。:通过结合多源图像的优势(如可见光的高分辨率、红外的热成像、雷达的穿透性),弥补单一传感器的局限性。:在复杂场景(如低光照、雾霾、遮挡)下提升任务性能(如目标检测、语义分割)。原创 2025-04-11 20:24:38 · 486 阅读 · 0 评论 -
大模型是如何把向量解码成文字输出的
(1) 输入文本 → tokenizer → token IDs(2) token IDs → Embedding → hidden_states(中间层向量)(3) hidden_states × W.T → logits(词表得分)(5) token ID → token → decode → 文本(6) 拼接文本 → 重复生成(自回归)原创 2025-04-08 23:30:37 · 715 阅读 · 0 评论 -
为什么 LoRA 梯度是建立在全量参数 W 的梯度之上
来代替全量的参数更新”, 所以梯度传播也必须从。就是“如果我们在做全量微调,该怎么更新。上, 是因为它相当于“用低秩矩阵。别动 W,我在它旁边加一个低秩矩阵。(下面具体分析为什么)我们原来要训练的参数矩阵是。✅ 答案是:因为前向传播中。换句话说:LoRA 中的。在这个过程中,损失函数。LoRA 的梯度建立在。,那我们训练时不是更新。LoRA 要训练的是。而对UV求导等价于对。原创 2025-04-06 19:25:12 · 656 阅读 · 0 评论 -
模型压缩技术从零到一
模型压缩是深度学习中的重要技术,旨在减小模型尺寸和计算需求,特别适合在移动设备或嵌入式系统上部署。本文将简要介绍几种主要方法,帮助您理解其基本原理和应用场景。剪枝:通过移除不重要的权重或神经元减小模型尺寸。量化:将浮点数权重转换为低精度格式(如8位整数)以加速推理。知识蒸馏:训练小型模型模仿大型模型的行为,保持性能。低秩分解:将权重矩阵分解为较小矩阵,减少参数数量。轻量级模型设计:从头设计高效架构,如MobileNet,减少计算量。模型压缩技术各有其适用场景。原创 2025-04-06 18:30:22 · 993 阅读 · 0 评论 -
Pytorch中的计算图(Computational Graph)是什么
计算图是一种“有向无环图(DAG)”,表示变量(张量)之间的运算关系。节点:张量或操作(如加法、乘法)边:数据流(即某个操作的输入/输出)PyTorch 利用计算图实现自动求导(Autograd):它在前向传播时记录每一步操作,然后反向传播时根据这些操作自动求导。原创 2025-04-06 18:10:59 · 799 阅读 · 0 评论 -
最简明扼要的AI神经网络入门
一个神经网络的层数以及每一层中的神经元数量都是任意的。原创 2025-04-06 14:54:15 · 317 阅读 · 0 评论 -
对比学习中的NCE(Noise-Contrastive Estimation)和InfoNCE(SimCLR)损失函数+案例(附SimSiam分析)
在对比学习(Contrastive Learning)中,NCE(Noise-Contrastive Estimation)和InfoNCE是两种常见的目标函数,它们都用于通过区分正样本和负样本来学习高质量的表示。NCE 是 word2vec 中用于高效训练词嵌入的关键技术,它通过将多分类问题转化为二分类问题来避免 softmax 计算中的归一化项,大幅提高训练效率。原创 2025-04-05 21:42:09 · 1071 阅读 · 0 评论 -
神经网络能不能完全拟合y=x² ???
先说结论:关键看激活函数的选择是的,ReLU神经网络对非线性函数(如yx2)的拟合只能是逼近,而无法实现数学意义上的完全重合。这一结论源于ReLU的分段线性本质与目标函数的非线性结构之间的根本性差异。原创 2025-04-04 01:35:06 · 1270 阅读 · 1 评论 -
如何理解神经网络中的“分段线性单元”,优雅解析前向和反向传播
虽然每一段都是线性的,但在不同段之间,斜率(或截距)的变化会导致整体函数在转折点处出现变化,这种变化就提供了非线性特性。原创 2025-04-03 21:28:00 · 1439 阅读 · 0 评论 -
生成对抗网络(GAN)详解(代码实现)
通过这个例子,可以看到 GANs 的具体实现其实是将生成器和判别器的对抗思想转化为代码。生成器从噪声生成图像,判别器判断真假,两者交替训练,最终生成器能生成逼真的手写数字。如果运行这段代码,经过足够多的轮次(比如 100 轮),会发现生成的图像越来越接近真实的 MNIST 数字。附:论文中提到了马尔可夫链(Markov Chain)和近似推理网络(Unrolled Approximate Inference Networks),它们是什么?马尔可夫链是一种随机过程,用来描述系统在不同状态之间转换的规律。原创 2025-04-03 20:15:41 · 1247 阅读 · 0 评论 -
结构化剪枝(Structured Pruning)与动态蒸馏(Dynamic Distillation)
结构化剪枝通过的方式去除冗余参数,保留关键子网络。:生成规则稀疏模式(如4×4权重块),便于GPU/TPU等加速器并行计算。:模块化操作更贴近人类对神经网络功能的理解。Sgradw∣∣∇wL∣∣2SacthVarhx))Stotalα⋅Sgrad1−α⋅SactW∈R16×16通过,使小模型(学生)逐步学习大模型(教师)的全局语义与局部特征,弥补参数量差距带来的性能损失。原创 2025-04-02 16:53:34 · 1150 阅读 · 0 评论 -
自动化网络架构搜索(Neural Architecture Search,NAS)
确定所有可能的网络架构组成部分,如卷积层、全连接层等。原创 2025-04-02 15:11:47 · 903 阅读 · 0 评论 -
LLM的Sink(水槽) Token
Sink Token 是特殊的标记(如预定义的BOS或可学习的占位符),其隐藏状态在特定维度(Dsink)上表现出异常高的激活值。这些标记会吸引大量注意力权重,但对模型最终输出的实质性贡献极低。原创 2025-04-01 21:13:01 · 635 阅读 · 0 评论 -
复合缩放EfficientNet原理详解(代码实现)
更深的网络可以学习更复杂特征,但容易导致梯度消失/爆炸问题,且计算量随深度线性增长。:深层网络训练困难,性能提升呈现明显的收益递减。更宽的网络能捕捉更丰富的特征,但参数量和计算量随通道数平方增长。:过于浅层的宽网络可能浪费计算资源,无法有效捕捉高阶特征。高分辨率输入保留更多细节,但计算量随分辨率平方增长。:分辨率过高时,特征信息冗余且计算成本激增。传统模型的浪费 :若仅增加网络深度(层数),可能导致梯度消失且计算量激增;若仅加宽通道数,参数量会平方级增长;若仅提高分辨率,冗余计算增多。原创 2025-04-01 20:29:42 · 678 阅读 · 0 评论 -
掩码图像建模 (MIM) 中的对数似然与交叉熵
目标:让模型对真实标签的预测概率尽可能高。数学实现:通过最大化对数似然(等价于最小化交叉熵损失)。代码实现:直接使用交叉熵损失函数,无需手动计算对数似然。原创 2025-04-01 14:58:13 · 862 阅读 · 0 评论 -
相对位置嵌入和旋转位置编码(RoPE)
特性相对位置嵌入旋转位置编码位置信息存储方式可学习的偏置矩阵预设的旋转角度计算复杂度OL2O(L^2)OL2OLO(L)OL长度扩展性需插值或截断天然支持任意长度显式相对位置是通过旋转隐式包含参数量随窗口大小增长零参数(仅计算)典型应用。原创 2025-03-29 17:23:42 · 648 阅读 · 0 评论 -
NLP语言模型训练里的特殊向量
在第 ( t ) 个时间步,只能看到 ( y_1, y_2, \ldots, y_{t-1} ) 这些前面的 token,不能看到未来的信息。,但它们出现在不同类型的 NLP 模型中,并承担不同的功能。在 Transformer 类模型中,DEC token 也。用于文本生成、机器翻译、问答任务(如 GPT、T5)。依赖“过去的输出”来预测下一个词,典型的自回归结构。,但它们的使用方式略有不同,取决于具体的模型和任务。这两种损失都用于 NLP 任务,但应用场景不同。,并在训练过程中通过梯度下降不断优化。原创 2025-03-29 15:34:35 · 740 阅读 · 0 评论 -
高斯噪声简介
在机器学习、计算机视觉、信号处理和深度学习的各种应用中,我们经常会遇到 高斯噪声(Gaussian Noise)。它不仅仅是一个数学概念,更是一种广泛用于数据增强、图像处理、信号去噪以及生成模型(如扩散模型)的重要技术。原创 2025-03-27 15:10:05 · 1350 阅读 · 0 评论 -
多GPU使用与并行训练
环境变量控制 GPU 可见性:在命令行设置可以灵活选择使用哪几块 GPU。单 GPU 训练:通过将模型和数据移动到指定 GPU 上进行训练。多 GPU 训练:简单易用,但存在主 GPU 负载过高等问题,适合小规模场景。:更高效、扩展性更好(支持多机多卡),需要额外设置分布式环境(例如使用 torchrun 启动)。混合精度训练:使用可以减少显存使用并提高训练速度。数据采样:在 DDP 中使用确保各进程数据不重叠并且均衡。原创 2025-03-27 12:39:52 · 944 阅读 · 0 评论 -
Pytorch对tensor进行变换的函数
view与reshape都可用于改变 tensor 形状:view要求 tensor 连续,返回的是共享内存的 view。reshape更灵活,当 tensor 非连续时会自动复制数据,返回新 tensor,内存不共享。transpose和permute用于调整维度顺序:transpose只交换两个维度,适用于二维或简单交换。permute可一次性重新排列所有维度,适用于多维 tensor 的任意维度调整。如果只是调整形状且确保 tensor 连续,view速度快且节省内存。原创 2025-03-26 15:44:33 · 1107 阅读 · 0 评论