- 博客(69)
- 收藏
- 关注
原创 VC 维度理论
VC 维度理论(Vapnik-Chervonenkis Theory)是统计学习理论(Statistical Learning Theory,SLT)的核心部分,由 Vladimir Vapnik 和 Alexey Chervonenkis 提出。在机器学习中,我们希望训练一个模型,使其在测试集上的误差尽可能低。,并解释模型在训练数据和测试数据上的误差关系,从而指导模型选择和容量控制。,但它们仍然能泛化,这似乎与 VC 理论的结论相矛盾。在统计学习理论中,我们优化的目标是。VC 维度的核心是衡量模型能够。
2025-03-18 19:04:59
1044
原创 Kullback-Leibler (KL) 散度详解
因此它不能作为严格意义上的“距离度量”(不像欧几里得距离或 Hellinger 距离)。的方法,常用于信息论、统计学和机器学习领域。Rényi 散度是 KL 散度的一个广义版本,可调节散度计算的敏感性。Kullback-Leibler (KL) 散度是一种。是常数,因此最小化交叉熵就等价于最小化 KL 散度。之间差距越大,则 KL 散度也会越大。在贝叶斯深度学习中,我们通常用。在强化学习中,KL 散度用于。JS 散度是 KL 散度的。在 KD 中,我们让一个。KL 散度并不对称,即。
2025-03-18 10:47:45
1060
原创 Grad-CAM
Grad-CAM(Gradient-weighted Class Activation Mapping)是一种。(如 ResNet、VGG、EfficientNet)。(class-specific)的,它可以告诉我们。假设我们有一个 CNN 对输入图像。,只需计算梯度即可获得热力图。,帮助我们理解 CNN。进行分类,并输出预测。,能够帮助理解模型决策。Grad-CAM 是。是由哪些区域决定的。
2025-03-18 10:04:35
712
原创 知识蒸馏(Knowledge Distillation)
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩技术,它通过训练一个小模型(学生模型, Student)来模仿一个大模型(教师模型, Teacher)的行为,从而提升小模型的性能。本文将详细介绍 KD 的基本原理、核心方法以及不同的 KD 变体。在 CV、NLP、语音等多个领域,KD 都展现出了强大的能力,并成为模型部署优化的关键技术之一。知识蒸馏(KD)是一种强大的模型压缩和加速技术,它通过让小模型(学生模型)学习大模型(教师模型)的知识,从而提升学生模型的性能。
2025-03-18 09:18:23
622
原创 免训练指标(Zero-Cost Proxies)
传统 NAS 需要训练候选架构来评估其性能,但训练消耗巨大,因此免训练指标提供了一种。计算某些统计量(如梯度、参数重要性、激活值分布),从而。:如果一个模型可以很好地模仿教师模型的特征分布(即。,而不需要完整训练整个模型。等信息来评估模型的质量。),则这个模型的质量更好。这些方法通常通过计算。
2025-03-17 18:35:52
574
原创 Multiobjective Evolutionary Algorithm Based on Decomposition
MOEA/D(Multiobjective Evolutionary Algorithm Based on Decomposition,基于分解的多目标进化算法)是一种多目标优化算法,由 Zhang 和 Li 于 2007 年提出。相较于 NSGA-II 这种基于 Pareto 支配排序的方法,MOEA/D 直接优化多个标量化的子问题,使得。在多目标优化问题(MOP)中,我们通常希望优化多个相互冲突的目标。MOEA/D 通过分解策略直接优化子问题,MOEA/D 的实现可以使用。
2025-02-26 15:24:51
1019
原创 NSGA-II:快速非支配排序遗传算法
在多目标优化(Multi-Objective Optimization, MOO)中,我们通常希望同时优化多个相互冲突的目标,而不是简单地找到一个最优解。NSGA-II(Non-dominated Sorting Genetic Algorithm II,快速非支配排序遗传算法 II)是一种,广泛应用于工程、金融、人工智能等领域。
2025-02-26 15:16:39
1147
原创 Conditional Neural Processes (CNPs) vs Gaussian Processes (GPs)
GPs 是一种随机过程,其中任意有限个变量的联合分布都是多元高斯分布。给定输入数据Xx1x2xnXx1x2...xn,对应的函数值Yy1y2ynYy1y2...ynY∼GPmXkXX′Y∼GPmXkXX′))均值函数mXm(X)mX:定义了 GP 的中心趋势,通常设为零均值。协方差函数kXX′k(X, X')kXX′。
2025-02-25 19:48:02
812
原创 Fine-Tuning
这种方法能显著减少训练时间,并提高模型在小数据集上的表现,是**迁移学习(Transfer Learning)**的重要组成部分。在 NLP 任务(如情感分析、文本分类、翻译)中,通常使用。(如 GPT、BERT、ResNet),只在特定任务上进行。Fine-Tuning 时,若全部参数都更新,可能会导致。而 Fine-Tuning 可以直接使用。在图像分类、目标检测等任务中,可以使用。(Pretrained Model)上。进行 Fine-Tuning。,然后在新数据集上微调。
2025-02-10 11:10:39
704
原创 汉明码原理
错误位置对应的校验位组合(即校验位的编号)就是发生错误的比特位置。例如,若校验位计算结果为。对于给定的数据位,通过特定的规则插入校验位,使得编码后的数据具有一个特殊的结构,这样接收方就可以通过校验位来检测并定位出发生错误的位置,从而纠正错误。其基本思想是通过增加适量的冗余比特,使得接收到的编码信息能够在发生错误时通过检查校验位来发现错误并进行纠正。每一个校验位的值是根据数据位和其他校验位的组合来确定的。该不等式的含义是:为了保证足够的校验位数,校验位的数量必须满足这个条件,以便能够标识所有可能的错误位置。
2025-01-13 09:35:32
1054
原创 蒙特卡洛树搜索
蒙特卡洛树搜索(MCTS)是一种基于蒙特卡洛模拟的决策算法,广泛应用于游戏、规划和控制问题中。MCTS的基本思想是通过随机采样(蒙特卡洛模拟)来逼近最优解,并且不依赖于复杂的领域知识。MCTS通过构建一个树形结构来表示状态空间,其中每个节点表示一个状态。通过四个步骤(选择、扩展、模拟和更新)来逐步探索可能的决策空间,并逐渐收敛到最优解。通过MCTS和UCT,我们能够在一个复杂的决策树中进行有效的搜索,平衡探索与利用,并逐渐找到最优的解决方案。
2025-01-11 17:10:00
904
原创 Kendall’s tau (KT)指标
是一种用于测量两个变量之间排序一致性的统计指标,广泛用于评估排名之间的相关性。在NAS-GAN和其他神经架构搜索领域中,Kendall’s tau 通常用于评估候选架构的性能排序在不同阶段(例如,搜索阶段和训练完成后)的一致性。Kendall’s tau 衡量两个排名之间的相关性,其核心思想是比较所有可能的排名对(pairwise)是否一致。
2025-01-09 09:48:14
852
原创 Inception网络
Inception网络是深度学习中的一种卷积神经网络架构,由Google团队提出,首次出现在2014年的论文"这种网络以其创新性的模块化设计(称为Inception模块)而闻名,能够有效提高网络性能并减少计算量。Inception网络的设计目标是提高网络深度和宽度的同时,控制计算复杂度。为此,它采用了一种称为。Inception网络经历了多个版本的改进,每个版本都在计算效率和模型性能之间寻找平衡。
2025-01-09 09:39:20
959
原创 FID和IS详解
(Inception Score)是评价生成对抗网络(GAN)生成图像质量的两种常用指标。以下是它们的详细介绍,包括优点和局限性。FID 是一种基于分布差异的评价指标,用于量化生成图像与真实图像之间的差异。IS 通过评估生成图像的多样性和生成质量,量化生成模型的性能。(Fréchet Inception Distance)和。:真实图像特征的均值和协方差矩阵。:生成图像特征的均值和协方差矩阵。:生成图像整体的类别分布,即。:KL散度,用于衡量。
2025-01-09 09:30:49
1320
原创 多面体与单纯形
单纯形是一个特殊的多面体,因为它的几何结构完全由线性不等式(非负性约束)和线性等式(凸组合约束)描述。这证明单纯形是多面体的一种。我们需要证明单纯形符合多面体的定义,即可以用有限个线性不等式和等式来描述。在凸优化中,多面体定义为由有限个线性不等式和等式描述的凸集合。这些点称为单纯形的顶点。因此,单纯形满足多面体的定义。单纯形是一个特殊的多面体,是由。
2025-01-03 11:04:59
812
原创 对数障碍函数
在优化问题中,处理带约束条件的优化问题是一项常见但复杂的任务。为了更有效地解决此类问题,障碍函数(Barrier Function)被提出,其中对数障碍(Logarithmic Barrier)是最经典的一种方法。本文将详细阐述障碍函数的基本原理,对数障碍的核心思想,并通过具体实例说明其应用。通过学习其原理和实践,我们可以更好地理解优化问题中的约束处理技巧,并将其应用于机器学习、运筹学等领域。对数障碍方法通过将不等式约束融入目标函数,巧妙地将约束优化问题转化为无约束优化问题。是权重参数,称为障碍参数。
2025-01-02 13:14:22
742
原创 Newton 方法
条件数较大(即矩阵特征值分布不均匀),Newton 方法的收敛性可能会受到影响,需要引入改进方法(如信赖域法或正则化 Newton 方法)。Newton 方法是一种高效的数值优化方法,通常用于求解无约束优化问题。其基本思想是利用目标函数的二次近似来寻找最优解。本质是利用二次近似快速逼近最优解,适用于二次收敛场景,但计算复杂度较高。针对高维问题或非凸问题,通常采用改进方法。是连续可微且二次可微的凸函数,Newton 方法通过构造。这就是 Newton 方法的更新公式。Newton 方法假设在当前点。
2025-01-02 11:22:46
701
原创 单纯形法Simplex Method
单纯形法是一种高效的线性规划求解方法,虽然在理论上存在指数级复杂度,但在实际应用中表现非常优异。它通过沿凸多面体边界移动找到最优解,是解决小规模线性规划问题的经典算法。它是一种迭代方法,旨在通过从一个可行解移动到另一个可行解来找到目标函数的最优值。单纯形法在几何上相当于在多面体的顶点之间沿边移动,每次选择目标函数值最大的方向,直到找到最优解。的几何性质来求解线性规划问题。线性规划的约束形成了一个凸可行域,其顶点(角点)是可能的解。选择一个初始的可行解(通常是基本可行解,包含松弛变量)。
2024-12-28 20:46:27
960
原创 Hessian 矩阵与函数的凸性
Hessian 矩阵是一个方形矩阵,用来描述多元函数的二阶偏导数信息。求偏导,构造二阶偏导数矩阵(即 Hessian 矩阵)。Hessian 矩阵是一个对称矩阵(因为二阶偏导数。Hessian 矩阵在一维情况下就是。是一个二次连续可导的函数。
2024-12-28 16:34:46
1011
原创 Slater 条件与 KKT 条件
KKT 条件是非线性优化问题中的必要最优性条件,尤其在凸优化问题中具有极为重要的作用。KKT 条件的核心思想是:通过引入拉格朗日乘子,将优化问题的约束融入目标函数,形成新的目标进行优化。如果 Slater 条件不成立,例如某个约束函数无法严格小于 0,则可能会导致 KKT 条件无法直接判断问题的最优解。在凸优化中,如果 Slater 条件成立,那么无需额外假设,KKT 条件即可用于判断最优解。Slater 条件是凸优化中一种重要的正则性条件,它保证了 KKT 条件的成立。为不等式约束对应的拉格朗日乘子,
2024-12-28 15:29:41
1545
原创 AR 模型的功率谱
功率谱密度(Power Spectral Density, PSD)的表达式是从推导出来的,特别是对于 AR(Auto-Regressive,自回归)模型。
2024-12-25 15:31:13
1370
原创 深入解析ENAS中的共享权重机制
尽管ENAS的共享权重机制解决了传统NAS中的时间开销问题,但也引入了一些新的挑战,例如共享权重可能对某些特定子模型评估不准确。ENAS提出了共享权重的概念:在庞大的搜索空间中,所有候选子模型(子网络)共享一个超级网络(Supernet)的参数。通过ENAS的探索,NAS算法的高效性得到了巨大的提升,也为神经网络搜索在实际应用中的落地提供了可能性。ENAS通过共享权重机制,实现了在庞大搜索空间中的高效搜索,显著降低了计算成本。共享权重的损失直接来源于采样的子模型在训练集上的性能。通过策略梯度方法优化。
2024-12-18 21:22:47
743
原创 Polyak 平均
Polyak 平均是一种用于优化器过程中的技术,旨在平滑和稳定模型的参数估计。简单来说,Polyak 平均通过对模型参数进行一定的指数加权移动平均(Exponential Moving Average, EMA),从而减小梯度下降过程中的波动,提高最终模型的性能和泛化能力。Polyak 平均常用于神经网络优化中,以缓解由于随机梯度下降(SGD)引起的噪声,以及帮助模型更好地泛化。假设模型参数的更新过程为θt\theta_tθt,其中ttt表示时间步或迭代次数。θˉtαθt1。
2024-12-07 17:23:30
1376
原创 NAS-FCOS论文总结
Ra−∑xY∈DvLclsxY∣aLregxY∣aLctrxY∣aRa−xY∈Dv∑LclsxY∣aLregxY∣aLctrxY∣aLclsLcls:分类损失。LregLreg:边界框回归损失。LctrLctr:中心度损失。FPN 搜索空间关键点基于多个“基本块”bbf_i,组合成最优路径。候选操作包括标准卷积、可分离卷积、可变形卷积等。
2024-12-07 17:11:37
1084
原创 YOLO的框架及版本迭代
YOLO的核心思想是一次看全图,将目标检测作为回归问题进行端到端学习。它具有高效、实时的特点,并且通过不同版本的改进,在速度和精度之间取得了良好的平衡。
2024-11-27 19:31:55
1655
原创 SAEA:代理辅助进化算法
SAEA 算法通过将代理模型与进化算法相结合,在计算代价高昂的优化问题中提供了一种高效的解决方案。通过灵活选择代理模型、动态调整探索与利用的策略,SAEA 不仅提升了优化效率,还拓展了进化算法的应用范围。未来,随着计算机硬件的进步和代理模型算法的优化,SAEA 在复杂多目标优化中的应用前景将更加广阔。
2024-11-22 15:16:26
1363
3
原创 isinstance 函数
是一个功能强大的工具,可以帮助我们编写更健壮的代码,但也需要谨慎使用。合理应用它可以提升代码的可读性和可维护性,而过度依赖可能会限制代码的灵活性。,从而违反了鸭子类型的原则。在 Python 中,更多时候我们应该依赖对象的行为,而非其具体类型。是 Python 的内置函数,用于检查一个对象是否是指定类或类型的实例,或者是其子类的实例。函数是一个非常有用的工具。这对于需要支持多种类型的情况非常有用,例如函数参数校验。在 Python 中,类型检查是一项常见的任务,而。的使用都能帮助我们编写更健壮的代码。
2024-11-20 16:00:31
460
原创 Separable Convolution(可分离卷积)
(可分离卷积)是一种优化卷积计算的方法,将普通卷积操作分解成两个更简单的操作,以减少计算量和参数量,同时保持较高的准确性。深度可分离卷积是目前应用最广泛的可分离卷积形式(如 MobileNet、Xception)。: 可分离卷积是一种有效的优化技术,通过降低计算复杂性,在轻量化模型中得到广泛应用,同时保持了较高的模型性能。卷积中,普通卷积需要 9 次乘法,而分解后只需要。
2024-11-19 21:21:25
1089
原创 梯度消失和梯度爆炸
如Sigmoid和Tanh的梯度范围较小。当输入较大或较小时,梯度趋近于0(函数饱和区域)。这两个问题通常在深度神经网络中出现,特别是在反向传播过程中,会严重影响网络的训练效果。在反向传播时,梯度值逐层减小,导致靠近输入层的权重几乎没有更新,网络难以学习有效特征。在反向传播时,梯度值逐层增大,最终导致权重更新过大,数值溢出或训练不稳定。初始权重过大,反向传播时梯度随层数增加而指数级放大。若每层的梯度值小于1,梯度会指数级衰减。若每层梯度值大于1,梯度会指数级增长。深度增加时,累乘的梯度可能引发爆炸。
2024-11-19 21:15:59
591
原创 不同激活函数的区别
激活函数输出范围是否有梯度消失问题计算复杂度常用场景Sigmoid01(0, 1)01有高二分类、浅层网络Tanh−11(-1, 1)−11有高二分类、浅层网络ReLU0∞0∞无(有死神经元)低深层网络Leaky ReLU−∞∞−∞∞无低深层网络,负值敏感任务ELU−α∞−α∞无中深层网络Softmax01(0, 1)01有高多分类输出层Swish−∞∞−∞∞无中性能提升任务。
2024-11-19 21:13:38
743
原创 SE模块的原理与流程详解
通道注意力机制主要关注特征图的通道维度,为每个通道分配一个权重,从而对重要通道进行强化,对无关通道进行抑制。这种机制可以看作是特征选择的一种方式,目的是让网络更加专注于对任务有贡献的特征。SE模块通过Squeeze和Excitation两步操作,利用全局通道信息为每个通道分配权重,从而动态调整网络的特征响应。这种机制让网络能够更加精准地关注关键通道,显著提升了模型的性能,同时引入的计算开销很小,是一种高效、灵活的注意力机制。
2024-11-19 21:07:02
1433
原创 Softmax Temperature
Softmax 函数通常用于多类分类问题中,将一个实数向量(未归一化的 logits)转化为一个概率分布。Pyiexplogiti∑jexplogitjPyi∑jexplogitjexplogitilogitilogiti是第iii个类别的得分(logit),这些值通常是神经网络的输出。exp⋅exp⋅是指数函数,用于将 logits 映射到正数。
2024-11-17 11:05:27
1210
原创 enumerate函数用法
是 Python 中的一个内建函数,用于遍历可迭代对象(如列表、元组、字符串等)时,返回每个元素的索引和元素本身。它常常用于同时需要索引和元素的情况。返回的对象被转换为一个列表,其中每个元素是一个包含索引和元素的元组。循环或转换成其他数据结构(如列表)可以访问这些索引和元素。和字典推导式配合使用,生成一个以索引为键、元素为值的字典。对象,它是一个迭代器,包含了每个元素的索引和值。也可以用于字符串,返回每个字符的索引和字符本身。时同时获取元素的索引和值。
2024-11-17 10:16:07
567
原创 Embedding的用法
的每一行向量会在训练过程中通过梯度下降优化,使得这些向量捕捉到输入索引的语义或特征关系。嵌入向量的维度允许模型学习到输入索引之间的隐式语义关系。,Embedding 层会从矩阵中取出第。嵌入层的核心是一个可以学习的矩阵。Embedding 是一种将。一个随机初始化的嵌入矩阵。
2024-11-17 10:00:36
1383
原创 深入理解 DARTS
初始化:随机初始化架构参数α\alphaα和权重www。循环优化Step 1:在验证集上更新架构参数α\alphaααα−ηα∇αLvalw−ξ∇wLtrainwαααα−ηα∇αLvalw−ξ∇wLtrainwααStep 2:在训练集上更新网络权重wwwww−ηw∇wLtrainwαww−ηw∇wLtrainw。
2024-11-09 21:19:58
1336
### Meta's Llama 3 AI Transforming Digital Assistance.docx
2024-06-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人