还不秃顶的计科生
我想,一切都会朝着美好的方向前进吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第54篇:Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape论文解读
通过低秩矩阵优化实现高效微调,但仅关注低维子空间,可能在全参数空间存在尖锐方向,导致下降。:将(Sharpness-Aware Minimization)直接应用于 LoRA 参数(LoRA-SAM)只能优化低秩子空间的尖锐性(公式4),且(需额外梯度步骤),LORA+SAM虽然将SAM与LoRA结合(称为LoRA-SAM(Li等人,2024a))对于大型模型微调是有希望的,但有几个问题需要讨论。首先,LoRA-SAM只能在受限空间。其次,SAM需要额外的梯度步骤,使,对于大型模型来说不切实际。最后,在。原创 2025-06-11 23:00:19 · 9 阅读 · 0 评论 -
第56篇GAM《Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization》还没弄完
最近,平坦极小值已被证明对提高模型泛化能力有效,而取得了领先的性能。然而,目前在SAM及其后续研究中所讨论的平坦度定义仅限于。然而,优化最坏情况依赖于对的合理选择。作为SAM中的一个预定义超参数,或在其变体(如ASAM,参考文献[42] )中参数缩放时的超参数,。我们表明,。如图1a所示,当ρ涵盖多个极小值点时,零阶平坦度(SAM)无法衡量波动频率。当ρ内只有一个极小值点时,如图1b所示,观测半径有限,且ρ内的最大损失可能与损失的上升趋势不一致。因此,为最小化泛化误差需要损失梯度的信息。原创 2025-06-10 22:24:32 · 23 阅读 · 0 评论 -
第55篇:ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING 论文讲解
我们实现了AdaLoRA用于微调DeBERTaV3-base(He等,2021a)和BART-large(Lewis等,2019)。我们评估了所提出算法在自然语言理解(GLUE,Wang等,2019)、问答(SQuADv1,Rajpurkar等,2016和SQuADv2,Rajpurkar等,2018)以及自然语言生成(XSum,Narayan等,2018和CNN/DailyMail Hermann等,2015)上的有效性。所有增益均通过了显著性测试,p < 0.05。原创 2025-06-08 18:43:28 · 42 阅读 · 0 评论 -
第52篇:OpenFedLLM: Training Large Language Models onDecentralized Private Data via Federated L论文解读
大型语言模型(LLMs)在多个领域取得了巨大成功,但高质量的公开数据预计将在这可能成为LLMs发展的瓶颈。私有数据的价值与限制:大量高质量数据分散在不同实体中,但由于隐私(如医疗和金融数据)或物理限制(如缺乏网络连接)而未被充分利用。这些,限制了当前LLMs的发展。论文提出了OpenFedLLM框架,利用(FL)在不直接共享原始数据的情况下,让多个数据所有者协作训练共享模型。原创 2025-06-04 13:48:59 · 28 阅读 · 0 评论 -
第53篇:LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and InitializationRefinement论文讲解
作为所有客户端的起始LoRA点。。原创 2025-05-27 19:09:20 · 67 阅读 · 0 评论 -
第50篇:(GSAM)SURROGATE GAP MINIMIZATIONIMPROVES SHARPNESS-AWARE TRAINING
我们在图 3 中通过数值玩具示例展示了不同的算法。原创 2025-05-04 23:06:30 · 46 阅读 · 0 评论 -
第49篇:AdaSAM——通过自适应学习率和动量加速提升锐度感知最小化
在训练深度神经网络时,传统优化器如,但在复杂模型和大规模数据面前存在。通过引入额外的扰动步骤来优化模型的泛化性能,但存在等不足(SAM需要计算2倍的参数)原创 2025-04-29 08:54:00 · 39 阅读 · 0 评论 -
第47篇:锐化感知最小化在训练后期有效地选择更平坦的最小值SHARPNESS-AWARE MINIMIZATION EFFICIENTLY SELECTS FLATTER MINIMA LATE I
也能获得。原创 2025-04-26 15:55:59 · 46 阅读 · 0 评论 -
第46篇:On the Effectiveness of Parameter-Efficient Fine-Tuning+
基于投影的方法。原创 2025-04-22 00:52:42 · 371 阅读 · 0 评论 -
第44篇:《SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models》
边缘设备资源有限(计算、通信、存储),直接全量微调(FFT)成本高;数据分布异质性(非IID)导致传统PEFT方法(如LoRA)性能显著下降(图1显示PEFT与FFT的差距越大异质性影响:数据越异质,SLoRA相对LoRA的优势越明显(图3、图6显示PEFT基线在异质数据下性能暴跌,SLoRA保持稳定)。在集中式学习中,LoRA 在不同任务上始终展现出良好的性能,且与全量微调(FFT)的准确率相当接近。对于数据分布更均匀(α 值较大)的联邦学习场景,这种情况依然成立。原创 2025-04-17 11:24:51 · 531 阅读 · 0 评论 -
(第24篇)lora论文讲解LoRA: Low-Rank Adaptation of Large Language Models(微调、预训练模型)
①微调(Fine-Tuning, FT)对模型所有参数进行完整更新。缺点:参数量大、训练成本高(如 GPT-2 Medium 的可训练参数达 354.92M)。②偏置微调(Bias-only, BitFit)仅训练模型中的偏置参数,其余参数冻结。参数量小,但效果可能不如其他方法。③前缀嵌入微调(Prefix Embedding Tuning, PreEmbed)在输入中插入优化的提示标记(Prompt)作为额外的嵌入,模型根据这些标记调整输出。可训练参数量与标记长度成正比。原创 2025-04-14 18:58:57 · 693 阅读 · 0 评论 -
第28篇:FLoRA: Federated Fine-Tuning Large Language Models with Heterogeneous (FedIT的升级版)
(本地的秩为16,全局的秩为64,上传的是A,B,全局聚合下发的是堆积后的AB,不是w的原因是w太大了,最终本地再将这个堆积后的AB吸收)目录添加到系统的 PATH 环境变量中,这样你可以在命令行中直接使用安装的脚本和工具。测试,比较了 FLoRA 与其他基线方法的性能。注意:每一个本地训练都要进行模型初始化。注意:每一个本地训练都要进行模型初始化。实验结果通过不同设置的。这些不安装,使用#注销。原创 2025-02-14 20:09:00 · 1182 阅读 · 1 评论 -
第32篇:FEDBIOT论文讲解
旨在解决在联邦学习中进行LLM微调时的两个主要挑战:①计算和通信成本②无法访问完整模型的问题。原创 2025-04-11 17:10:12 · 40 阅读 · 0 评论 -
第35篇:FedDPA论文讲解
在联邦学习系统中,每个客户端有本地训练数据集和测试数据集。测试数据集含与训练数据分布相同及不同的测试集。模型目标是在本地任务表现良好(个性化)且在测试任务上有较好表现(测试时性能)。原创 2025-04-11 17:09:59 · 211 阅读 · 0 评论 -
第33篇:DP-LORA论文讲解
性能下降趋势:随着隐私设置的加强(即 ε 和 δ 值降低),所有模型的性能普遍下降。例如,Llama-7B模型在LiveQA任务上的性能从原始设置的69.4下降到 ε 减少到2时的55.9,以及当 δ 减少到 1×10−6 时的49.3。这表明隐私保护与模型效用之间存在权衡。模型间的差异:一些模型如ChatGLM-6B在 ε 值变化下表现出更强的鲁棒性。例如,其在LiveQA任务上的性能仅从原始的71.9略微下降到 ε 增加到10时的67.3。这表明某些模型可能更适合隐私敏感的应用。隐私与效用的权衡。原创 2025-04-11 17:09:45 · 36 阅读 · 0 评论 -
第30篇:(FedGF)Rethinking the Flat Minima Searching in Federated Learning(新型平坦最小化)
论文主要解决了联邦学习(Federated Learning,FL)中的问题。在FL中,客户端之间的数据分布通常存在异质性(non-IID),这使得全局模型的汇聚变得非常困难,导致模型的性能不佳。尽管采用Sharpness-Aware Minimization(SAM)等方法在本地训练中能够找到,但在上,这种局部的平坦最小值并不能有效地转化为全局平坦最小值,尤其是在数据分布高度异质的情况下。论文定义了这个问题为,并指出这种差异会显著影响FL方法的性能。原创 2025-04-11 16:52:24 · 38 阅读 · 0 评论 -
联邦学习个性化顶刊顶会汇总
2.Layer-wised Model Aggregation for Personalized Federated Learning无1.Personalizing Federated Medical Image Segmentation via Local Calibration。原创 2025-04-11 16:50:41 · 91 阅读 · 0 评论 -
第31篇:FedSA-LoRA(联邦学习+lora+个性化升级版)
验证生成的摘要是否与原文一致。原创 2025-04-11 08:18:03 · 179 阅读 · 0 评论 -
第43篇:惩罚梯度范数Penalizing Gradient Norm for Efficiently ImprovingGeneralization in Deep Learning
公式(6)->公式(10)->公式(11)(4)惩罚梯度范数的算法1。原创 2025-04-11 08:17:29 · 32 阅读 · 0 评论 -
fedmezo零阶优化算法论文《On the Convergence of Zeroth-Order Federated Tuning for Large Language Models》
定理 3.4。原创 2025-04-11 08:16:40 · 44 阅读 · 0 评论 -
第34篇:FlexLoRA论文讲解Federated Fine-tuning of Large Language Modelsunder Heterogeneous Tasks and Client
资源异构性实验①模型与数据集基础模型DataJucier(1.3B参数):主要实验模型,适用于边缘设备;LoRA配置Type 1:所有层秩=8(0.12%参数量);Type 2:所有层秩=30(2.46%参数量);Type 3:注意力层秩=30 + FFN层秩=200(8.22%参数量);Type 4:所有层秩=200(12.22%参数量)。②资源分布模拟三种分布模式均匀分布(Uniform):四种LoRA类型比例均等;重尾分布:Type 1(低资源)占主导;:Type 4(高资源)占主导;正态分布。原创 2025-04-09 02:01:40 · 529 阅读 · 0 评论 -
第42篇FEDGLOSS算法BEYOND LOCAL SHARPNESS:COMMUNICATION-EFFICIENT GLOBALSHARPNESS-AWARE MINIMIZATIONFOR
:用上一轮伪梯度最小化锐度,获取与全局损失最相关的几何信息,引导全局优化趋向更平坦的最小值。效果对比分析:FEDGLOss。原创 2025-03-31 13:17:57 · 421 阅读 · 0 评论 -
peft微调大模型LORA的基础教程!
第二部分:使用transformer下载大模型(0)配置(1)下载gpt2(这个模型大小比较小)用途:存储模型的权重(参数)。说明:这是模型的核心部分,包含了模型在训练过程中学到的知识。 是一种安全的存储格式,用于保存模型权重。用途:定义模型的结构和超参数。说明:包含模型的配置信息,例如层数、隐藏单元数、注意力头数等。这是初始化模型时必需的文件。用途:分词器的完整配置文件。说明:用于初始化分词器,定义了分词器的行为和规则。用途:词汇表文件。说明:定义了分词器使用的词汇表,包含每个词或原创 2025-03-30 13:53:26 · 75 阅读 · 0 评论 -
第41篇On the Convergence of Zeroth-Order Federated Tuning forLarge Language Models(fedmezo首次零阶优化+lora)
推理是指将输入数据(如图像、文本)输入到训练好的模型中,生成输出结果(如分类标签、翻译文本)的过程。例如,用训练好的语言模型回答用户问题时,模型需要处理输入文本并生成响应,这一过程即为推理。原创 2025-03-10 11:54:24 · 594 阅读 · 0 评论 -
第38篇:Adaptive Personalized Federated Learning(APFL)算法(个性化联邦学习)
在传统的联邦学习中,主要目标是训练一个全局模型,使其在所有参与客户端上表现良好。然而,由于客户端数据的非独立同分布(non-IID)特性,全局模型可能无法很好地适应每个客户端的本地数据,导致本地模型的性能受限。:为了提升每个客户端的本地模型性能,研究者们开始关注个性化联邦学习。个性化的目标是让每个客户端在贡献全局模型的同时,训练出适合本地数据的个性化模型。原创 2025-03-07 15:00:20 · 329 阅读 · 1 评论 -
第37篇Personalized Federated Learning: A Meta-Learning Approach(perfedavg联邦学习+元学习)2020个性化联邦学习使用Hessian
联邦学习(FL)在多用户协同训练模型时,因数据隐私和通信限制,用户仅与中央服务器交互。传统 FL 方法得到的全局模型无法适应各用户的异质数据,导致在用户本地数据集上性能不佳因此这篇论文旨在解决联邦学习中模型缺乏个性化的问题。原创 2025-03-07 13:09:13 · 453 阅读 · 0 评论 -
第26篇:pFedLoRA: Model-Heterogeneous Personalized Federated Learning with LoRA使用lora微调的模型异构个性化联邦学习
模型异构个性化联邦学习(MHPFL)原创 2025-02-17 19:00:39 · 798 阅读 · 0 评论 -
第29篇:Dynamic Personalized Federated Learning withAdaptive Differential Privacy(FedDPA)
现有的个性化联邦学习方法大多通过固定分配模型参数来实现个性化,这种方法缺乏灵活性,无法充分适应不同客户端的数据分布,导致个性化效果受限。:在差分隐私机制中,为了确保隐私保护,必须在本地更新中引入噪声并进行梯度裁剪。传统方法直接对所有参数进行噪声添加和裁剪,这不仅影响了模型的收敛速度,也降低了模型的性能。:由于差分隐私中的噪声,部分模型参数(尤其是与本地数据密切相关的参数)会遭到噪声的干扰,导致模型性能下降。原创 2025-02-11 12:57:01 · 658 阅读 · 0 评论 -
第二讲:如何使用deepseek快速制作ppt(集结合kimi)
帮我写一个关于“快餐式饮食的坏处”的ppt,你先帮我拟写一下每一部分该怎么写,大概15页ppt就可以结果如下:以下是关于"快餐式饮食的坏处"的15页PPT结构建议,包含内容框架与设计思路:### **封面(1页)**- 主标题:快餐式饮食的隐形代价- 副标题:当速度与便利侵蚀健康- 设计建议:汉堡薯条图片+红色警示图标---### **目录(1页)**1. 快餐式饮食的定义与现状2. 健康危害:身体的无声抗议3. 心理与社会影响4. 经济成本的隐藏真相。原创 2025-02-03 13:51:11 · 12614 阅读 · 0 评论 -
第一讲:deepseek初步认知(超强国产大模型)
1。原创 2025-02-03 11:43:03 · 611 阅读 · 0 评论 -
第27篇:IMPROVING LORA IN PRIVACY-PRESERVING FEDERATED LEARNING(低秩适配(LoRA) 在 隐私保护的联邦学习(FL)) FFA-LoRA算法
传统:fed+dp(在本地客户端进行)+lora论文指出 LoRA 在 FL 结合。原创 2025-01-30 20:52:17 · 170 阅读 · 0 评论 -
三种模型异构个性化联邦学习(MHPFL)
适合有合适公共数据的情况下使用,但对数据隐私和成本敏感。:适合需要部分共享特性但仍需保留个性化的场景。:适合需要高个性化且允许高计算开销的应用场景。原创 2025-01-27 18:57:21 · 160 阅读 · 0 评论 -
第25篇FedIT:Towards Building the Federated GPT:(首次将 FL 应用于大语言模型(LLMs)的指令微调(Instruct)(FedIT)
Shepherd 是一个轻量级框架,旨在支持联邦参数高效指令学习(Federated Parameter-Efficient Instruction Learning),适用于 NLP 任务和其他研究。Shepherd 支持包括 Stanford Alpaca、Vicuna、Dolly 等模型的训练,同时兼容 LoRA 技术,支持多个最新的 PEFT 方法。四大组成模块作用定义一个通用的客户端类,用于模拟联邦学习中的客户端。解释__init__原创 2025-01-27 17:19:24 · 503 阅读 · 0 评论 -
分布式学习框架ray
每个客户端负责:接收全局模型。使用本地数据训练模型。将更新后的模型梯度发送给服务器。代码:Ray Actor 用于客户端的实现:import rayself.model = global_model # 接收全局模型# 模拟训练:返回梯度更新gradients = self.data - np.mean(self.data) # 示例计算定义一个简单的处理函数,计算输入值的两倍。原创 2025-01-25 12:51:13 · 116 阅读 · 0 评论 -
联邦学习~吴恩达《联邦学习|Federated Learning》(使用flower框架)
1.设置模型参数# 将参数设置到模型中params_dict = zip(net.state_dict().keys(), parameters) # 将模型的状态字典键值与参数进行绑定{k: torch.tensor(v) for k, v in params_dict} # 将参数转换为 PyTorch 张量net.load_state_dict(state_dict, strict=True) # 严格加载模型参数2.获取模型参数客户端将局部模型参数返回给服务器# 从模型中提取参数。原创 2025-01-21 17:56:49 · 169 阅读 · 0 评论 -
第23篇:Locally Estimated Global Perturbations are Better than Local Perturbationsfor (FedLESAM)
联邦学习中的挑战:在联邦学习中,数据异质性和多步本地更新常常导致模型收敛到尖锐的局部最小值,影响全局模型的性能。最小化锐度是避免这一问题的一种方法,但基于局部数据的扰动计算可能无法找到全局一致的最小值。FedLESAM的创新:FedLESAM通过考虑当前和上一轮全局模型的差异,估算全局扰动方向,而不是在本地数据上计算扰动。这种方法不仅提高了锐化最小化的效果,也减少了计算开销。FedLESAM算法通过在客户端估计全局扰动的方向来改进FedSAM,而不是基于局部数据计算扰动。这种方法不仅减少了计算开销,还使得锐原创 2025-01-09 08:19:14 · 487 阅读 · 0 评论 -
传统机器学习框架+联邦学习开源框架-Flower
"""使用从服务器接收到的模型参数,将本类中未初始化的模型覆盖为接收到的参数。"""#替换模型参数"""提取所有模型参数并将它们转换为NumPy数组列表。服务器不支持直接使用PyTorch/TF等。""""""此方法使用从服务器发送的参数在此客户端的数据集上训练模型。最后,本地训练的模型参数将传回服务器。"""#将服务器发送的参数复制到客户端的本地模型中#定义优化器----------------------与集中式示例中的设置基本相同。原创 2025-01-19 08:18:45 · 443 阅读 · 0 评论 -
第16篇:Averaging Weights Leads to Wider Optima and Better Generalization(SWA2018-2019)平坦最小化
是一种集成方法,使用高频率的循环学习率从SGD的轨迹中采样不同的权重。这些采样的权重对应模型输出上的不同预测,但在权重空间中相距较近。SWA与FGE的联系:SWA并不在模型的输出空间中直接进行集成,而是通过对权重空间的多个点进行平均,找到一个更“中心”的权重点,来达到类似的效果。c是周长宽度(超参数)原创 2024-12-22 00:24:07 · 833 阅读 · 0 评论 -
第19篇:DP²-FedSAM: 通过个性化的敏锐度感知最小化增强差分隐私联邦学习DP2-FedSAM: Enhancing Differentially PrivateFederated
诚实但好奇”模型: 服务端被假设为遵守联邦学习协议,也就是说它不会主动篡改或破坏训练过程。好奇的部分: 服务端对客户端的本地数据集感兴趣,并试图通过共享的消息推断客户端的数据内容。裁剪会引入一定的误差:裁剪后的更新与原始更新的差值可以表示为:(公式8)裁剪操作的好处: 裁剪限制了更新的大小,可以有效减少异常更新(例如,某些客户端的数据分布不同导致的极端更新)对全局模型的影响。在非独立同分布(Non-IID)数据场景下,各客户端的数据分布差异较大。这可能导致某些客户端的更新范数较大,从而。原创 2024-12-31 12:50:27 · 1466 阅读 · 0 评论 -
第18篇:Generalized Federated Learning via Sharpness Aware Minimization(FedSAM)联邦学习+平坦最小化
联邦学习(FL)是一种隐私保护的分布式机器学习框架,但由于客户端数据分布不均(非IID),会导致模型优化困难。当前FL方法主要通过以下几种方式缓解分布偏移:控制本地训练周期与通信轮次的比例。增加约束项,使得本地模型更新接近全局模型。使用知识蒸馏技术进行模型融合。Sharpness-Aware Minimization(SAM)是一种近期提出的优化方法,通过调整损失表面的光滑性提高模型的泛化能力,但此前未被广泛应用于FL。原创 2024-12-23 00:27:00 · 887 阅读 · 0 评论