tiger00O-优快云博客

原创多任务Lora

Chengsong Huang et al. “LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition”. In: arXiv preprint arXiv:2307.132

2025-02-23 16:47:56 207

对大型语言模型（LLMs）进行微调是一种非常有效的技术，可以提升它们在各种任务中的能力 [1, 2, 3, 4]，确保模型能够遵循指令 [5, 6, 7]，并赋予模型期望的行为，同时消除不期望的行为 [8, 9]。因此，提出了各种参数高效微调（PEFT）[12, 13] 方法，以减少微调所需的参数数量和内存使用，同时保持与全参数微调相当的性能。1.我们分析了 LoRA 中初始梯度的大小和方向，表明 A 最初的梯度为零，而 B 的梯度是随机的，这致收敛速度变慢，并可能导致收敛到次优的局部最小值。

2025-02-23 15:08:30 254

原创一文彻底搞懂Transformer - FFNN（前馈神经网络）

虽然FFN的输入输出维度都是512，但是输出的512维度特征和输入的512为特征是不一样的。但很多时候512维不够用，我们希望模型可以提取出更多维度的特征，于是，通过 FFN 两个相邻 FC 层的运算，可以将 512 维扩展到2048维（ FFN 的隐层），随后再降维到512维作为 FFN 的输出。因为 FFN 层由两个线性变换层（FC）和一个非线性激活函数（ReLU）组成，通过在两个 FC 中间添加非线性变换（这是非常常见的操作），可以增加模型的表达能力，使模型能够捕捉到复杂的特征和模式。

2025-02-23 14:55:31 183

原创 BERT模型（非常详细）

BERT 使用双向方法（B 就是 Bidirectional（双向）），同时考虑句子中单词的左右上下文，而不是按顺序分析文本，BERT 同时查看句子中的所有单词。BERT 是双向的，它同时考虑左侧（“The bank is situated on the”）和右侧上下文（“of the river”），从而实现更细致的理解。它理解缺失的单词可能与银行的地理位置有关，展示了双向方法带来的语境丰富性。在单向模型中，对空白的理解将严重依赖于前面的单词，并且模型可能难以辨别“bank”是指银行还是河的一侧。

2025-02-23 14:38:14 374

原创图解Transformer

继续将Encoder和Decoder拆开，可以看到完整的结构，如下图所示：上图Decoder接收了Encoder的编码矩阵，然后首先输入一个开始符 "<Begin>"，预测第一个单词，输出为"I"；然后输入翻译开始符 "<Begin>" 和单词 "I"，预测第二个单词，输出为"am"，以此类推。这是Transformer的大致流程，接下来介绍里面各个部分的细节。上图是Transformer的内部结构，其中红色方框内为，是由多个组成，具体结构如下图：多头注意力LayerNorm。

2025-02-23 14:07:56 319

原创具有全局损失收敛保证的联邦动态低秩训练

邦动态低秩训练（FeDLRT）方案，以减少客户端计算和通信成本。我们的方法基于动态低秩分裂方案，用于流形约束优化，创建网络权重的全局低秩基，使客户端能够在小系数矩阵上进行训练。这种全局低秩基使我们能够引入方差校正方案，并证明全局损失下降并收敛到一个稳定点。FeDLRT通过动态增加和截断低秩基来优化计算和通信资源的利用。值得注意的是，FeDLRT仅在每个客户端训练一个小的系数矩阵。

2025-02-22 17:47:00 459

原创 On the Effectiveness of Parameter-Efficient Fine-Tuning

然而，随着参数数量呈指数增长，达到数十亿（Brown et al. 2020）甚至数万亿（Fedus, Zoph, and Shazeer 2021），为每个下游任务保存完全微调的参数变得非常低效。在本文中，我们首先根据这些方法选择可调参数的方式，将现有方法分为三类（即随机方法、基于规则的方法和基于投影的方法）。在本文中，我们首先根据这些方法选择要微调的参数的方式，将现有方法分为随机方法、基于规则的方法和基于投影的方法。实验结果表明，我们提出的SAM模型优于许多强大的基线模型，并且验证了我们的理论分析。

2025-02-21 16:41:17 699

原创 Policy-Based Reinforcement Learning

wang

2025-02-20 19:39:09 88

原创强化学习笔记 wangshusen

无

2025-02-20 19:21:04 83

原创 AdaptFormer

预训练视觉变换器（ViTs）在视觉识别领域取得了巨大成功。接下来的挑战是如何将ViT适应于各种图像和视频识别任务。由于计算量大和内存存储需求高，这种适应过程面临挑战。每个模型都需要独立且完整的微调过程以适应不同任务，这限制了其在不同视觉领域的迁移能力。为了解决这一挑战，我们提出了一种有效的变换器适应方法，即AdaptFormer，能够高效地将预训练的ViT应用于多种不同的图像和视频任务。

2025-02-18 16:28:26 669

原创双头个性化LORA

值得注意的是，联邦基础模型（FedFM）作为一种隐私保护方法出现，通过联邦学习（FL）设置协作微调模型，利用分布式数据集（数据是非独立同分布的，non-IID）进行训练。然而，现有研究的一个关键问题是忽视了现实应用中的测试时分布偏移（test-time distribution shifts），传统用于个性化联邦学习中的测试时分布偏移方法对FedFM的效果较差，因为它们无法适应复杂的分布偏移场景，并且需要训练所有参数。通过与基础模型协作，全局适配器和局部适配器共同应对测试时分布偏移和客户端特定个性化。

2025-02-18 16:13:02 213

原创个性化联邦微调用于异构数据：一种两级低秩适应方法

尽管近期研究已经将参数高效的微调技术（如低秩适应[LoRA]或提示训练）应用于联邦环境，但它们往往忽视了数据异构性和模型个性化的需求。为此，我们提出了PF2LoRA，这是一种基于LoRA的新型个性化联邦微调算法，采用两级低秩适应框架。在冻结预训练基础模型权重的前提下，我们的算法旨在同时学习两级适应：第一级学习适用于所有客户端的通用适配器，第二级促进个体客户端的个性化。该框架明确适应了客户端之间适配器矩阵秩的变化，并且由于第二级适应仅包含少量参数，因此相比第一级引入的额外内存开销极小。

2025-02-18 12:57:40 137

原创 FLORA: Low-Rank Adapters Are Secretly Gradient Compressors

在本文中，我们提出了FLORA（从LoRA到高秩更新），这是一种新颖的优化技术，使用次线性内存进行梯度累积和动量计算。此外，我们的方法只存储压缩后的梯度累积和动量，从而将优化状态的内存使用量降低到次线性水平。然而，Adafactor为了实现次线性复杂度，放弃了动量技术，牺牲了动量的方差减少和阻尼效果（Rae等人，2021）。例如，GPT-3（Brown等人，2020）和Stable Diffusion（Rombach等人，2022）使用Adam（Kingma和Ba，2015）进行训练，其中应用了动量。

2025-02-17 16:06:45 756

原创 A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA

我们的分析证明，LoRA适配器应该被除以秩的平方根因子，而不是传统LoRA实现中适配器被除以秩的因子。它们在多种应用中取得了成功，包括机器翻译（Zhu et al., 2023）、疾病预测（Rasmy et al., 2021）、为机器人控制策略生成代码（Liang et al., 2023），以及聊天助手（Ouyang et al., 2022）。通过修改LoRA的缩放因子，rsLoRA方法可以轻松实现微调的计算/性能权衡：在训练过程中，可以使用更高的秩来换取更好的微调性能，而无需改变推理计算成本。

2025-02-16 21:25:40 439

原创 ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING

然而，常见的做法是对预训练模型中的所有参数进行微调，当存在大量下游任务时，这种方法变得难以承受。因此，许多微调方法被提出，以一种参数高效的方式学习预训练权重的增量更新，例如低秩增量。这些方法通常会将增量更新的预算均匀分配到所有预训练权重矩阵中，却忽略了不同权重参数的重要性差异。这种新颖的方法使我们能够有效地修剪不重要更新的奇异值，本质上是减少它们的参数预算，同时避免密集的精确奇异值分解（SVD）计算。我们在自然语言处理、问答和自然语言生成等多个预训练模型上进行了广泛的实验，以验证AdaLoRA的有效性。

2025-02-16 20:57:24 196

原创 Federated Sketching LoRA

挑战尽管将联邦学习与LoRA结合可以通过矩阵分解减少可训练参数的数量，但通信成本仍然随着分解的秩线性增加。当复杂任务需要更高秩的LoRA模块时，这尤其会带来挑战，尤其是在资源受限的移动设备上。此外，分布式设备之间计算和通信能力的异质性使得统一的秩变得低效：固定的秩r对于某些设备来说可能过大，而对于更强大的设备来说又过小，导致资源未充分利用。因此，一种既能减少通信开销又能适应异构设备能力的解决方案对于LLM的协作微调非常必要。尽管一些现有的方法试图提供解决方案（Cho et al., 2024;

2025-02-16 18:26:55 699

原创 FFA-LoRA

摘要：低秩适配（LoRA）是针对预训练语言模型进行任务特定参数高效微调（PEFT）的最流行方法之一，因其良好的性能和计算效率而受到广泛应用。LoRA通过在每个冻结的预训练模型模块上方注入两个可训练的低秩分解矩阵的乘积来实现。然而，在隐私保护的联邦学习（FL）环境中应用LoRA时，可能会由于以下原因变得不稳定：（1）数据异质性和多步本地更新的影响不容忽视；（2）为保证差分隐私（DP）而在更新梯度上添加的噪声可能会被放大；（3）最终性能对超参数非常敏感。导致这些现象的一个关键因素是本地客户端联合优化两个低秩矩阵

2025-02-08 21:06:01 473

原创 FlexLoRA

正如我们在表4中实证展示的那样，由于更大的秩带来的收敛速度提升，足以弥补每轮训练更多参数带来的额外开销，从而在整体效率上获得净收益，并减少了完成训练所需的总时间。为了充分利用本地客户端的资源，我们遵循在客户端资源预算允许的情况下分配尽可能高的秩的原则，这受到我们实证发现的启发，即较大的秩通常能带来更好的泛化能力。由于其简单性，FlexLoRA 可以插入一系列基于 LoRA 的 FL 方法中，释放其利用可用但未充分利用的资源的潜力，通过更大的 LoRA 秩贡献更泛化的知识，这也得到了我们的理论分析的支持。

2025-02-08 20:26:43 461

原创 LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement

通过这种简单而有效的设计，LoRA-FAIR提供了一种方法，通过保留初始模型中的共享平均信息，同时努力在服务器端实现准确聚合，从而近似解决这两个挑战的理想方案。尽管LoRA能够实现高效的微调，但它需要大量的数据来进行适应，这使得联邦学习（FL）成为一个有吸引力的解决方案，因为FL提供了一个保护隐私的协作框架。现有的方法分别解决这些挑战，限制了它们的有效性。我们提出了LoRA-FAIR，一种新颖的方法，通过在服务器端引入一个校正项，同时保留原始的LoRA模块，同时解决这两个问题，提高了聚合效率和准确性。

2025-02-08 19:43:56 759

原创 LORA原文解读

我们关注 Houlsby 等人（2019）最初的设计，其中每个 Transformer 块包含两个适配器层，以及 Lin 等人（2020）最近提出的一种设计，其中每个块仅包含一个适配器层，但额外增加了 LayerNorm（Ba 等人，2016）。随着更大规模的模型每隔几个月被训练出来，这一问题从GPT-2（Radford等人，2019）或RoBERTa-Large（Liu等人，2019）的“不便”转变为GPT-3（Brown等人，2020）的1750亿可训练参数的“关键部署挑战”。

2025-02-08 18:17:34 579

原创 pFedLoRA: Model-Heterogeneous Personalized FederatedLearning with LoRA Tuning

本文提出了一种新型高效的模型异质性个性化联邦学习框架FedLoRA，该框架基于LoRA（Low-Rank Adaptation）调整技术。FedLoRA通过在每个客户端的本地异构模型中插入一个小型低秩同质适配器（adapter），并利用迭代训练方法实现全局与局部知识的交换。这些小型适配器在联邦学习服务器上被聚合生成全局适配器，从而支持客户端之间的知识转移。理论分析证明了FedLoRA的收敛性。

2025-02-08 18:06:02 797

原创 FLoRA: 基于异构低秩适应的联邦微调大语言模型

大语言模型（LLMs）的快速发展推动了人工智能的进步，预训练的LLMs可以通过微调适应各种下游任务。联邦学习（FL）通过利用客户端的本地数据进行原位计算，进一步增强了隐私保护的微调，消除了数据移动的需求。然而，考虑到LLMs的巨大参数量，微调LLMs对于资源受限且异构的FL客户端来说是一个挑战。之前的方法采用了低秩适应（LoRA）进行高效的联邦微调，但在LoRA适配器上使用了传统的FL聚合策略。这些方法导致了数学上不准确的聚合噪声，降低了微调效果，并且未能解决异构LoRA的问题。

2025-01-09 22:33:12 1091

原创 PSRide: 保护隐私的共享乘车匹配系统

2025-01-09 20:28:23 83

原创 Adam优化器的并行化和分布式

2025-01-09 20:21:33 79

原创深度学习优化器

RAdam（Rectified 修正 Adam）是由Liyuan Liu et al. 提出的。这一算法的详细描述和原理可以在论文《On the Variance of the Adaptive Learning Rate and Beyond》1中找到，该论文首次发表于2019年，并在2020年的ICLR会议上发表。论文中提出了RAdam算法，通过引入一个修正项来解决自适应学习率在模型训练早期阶段过大的方差问题，从而改善了优化过程的稳定性和鲁棒性。1. RAdam算法的提出。

2025-01-09 19:35:37 174

原创零阶优化微调

零阶优化（Zero-Order Optimization）是一种不依赖于梯度信息的优化方法。与一阶优化方法（如梯度下降）不同，零阶优化方法仅通过目标函数的函数值来进行优化，而不需要计算或估计梯度。零阶优化方法是一类不依赖于梯度信息的优化技术，适用于梯度不可得或难以计算的问题。尽管其收敛速度较慢且计算成本较高，但在许多实际应用中，零阶优化方法仍然是解决复杂优化问题的有效工具。随机搜索是最简单的零阶优化方法之一。它通过在参数空间中随机采样点，并选择使目标函数值最小的点作为优化结果。

2025-01-08 20:24:46 204

原创 ORide: 一种保护隐私且可追责的网约车服务

2025-01-08 20:19:01 113

原创 MIME FL

联邦学习（FL）是一种优化挑战，因为不同客户端之间的数据异质性可能导致客户端漂移现象。实际上，设计一种在联邦学习中统一优于简单中心化训练的算法一直是主要的未解决问题。在这项工作中，我们提出了一个通用的算法框架MIME，该框架i）减轻客户端漂移，ii）将任意中心化优化算法（如动量和Adam）适应到跨设备联邦学习设置中。MIME使用控制变量和服务器级优化器状态（例如动量）在每个客户端更新步骤中，确保每个本地更新模仿在独立同分布数据上运行的中心化方法。

2025-01-05 23:13:31 450

原创 Adam优化

Adamax算法在深度学习中得到了广泛的应用，特别是在处理稀疏数据和高维参数问题时表现出色。例如，在自然语言处理、图像识别和推荐系统等任务中，Adamax能够有效地加速收敛并提高性能。Adamax是Adam的一种变体，此方法对学习率的上限提供了一个更简单的范围。总的来说跟Adam效果差不了多少。

2025-01-05 19:55:49 320

原创 Adadelta

Adadelta算法是AdaGrad的扩展，旨在解决AdaGrad中学习率过快衰减的问题。Adadelta算法由Matthew D. Zeiler在2012年提出，其核心思想是利用梯度的历史信息来动态调整学习率，使得算法在面对不同的问题和数据分布时，能够自适应地选择合适的学习率。

2025-01-05 19:30:59 116

原创 RMSprop算法

1.AdaGrad算法的改进。鉴于神经网络都是非凸条件下的，RMSProp在非凸条件下结果更好，改变梯度累积为指数衰减的移动平均以丢弃遥远的过去历史。RMSProp算法不是像AdaGrad算法那样暴力直接的累加平方梯度，而是加了一个衰减系数来控制历史信息的获取多少。可以看出RMSProp优化算法和AdaGrad算法唯一的不同，就在于累积平方梯度的求法不同。2.经验上，RMSProp被证明有效且实用的深度学习网络优化算法。

2025-01-05 19:02:42 295

原创 Adagrad

【代码】Adagrad。

2025-01-05 18:57:05 211

原创 Optimal Black-Box Reductions Between Optimization Objectives

2025-01-05 17:09:04 66

原创 Adam: 一种随机优化方法

Adam: 一种随机优化方法Diederik P. Kingma阿姆斯特丹大学, OpenAIdpkingma@openai.comJimmy Lei Ba多伦多大学jimmy@psi.utoronto.ca脚注1: 贡献相等。作者顺序通过Google Hangout上的抛硬币决定。摘要我们介绍了Adam，一种基于自适应低阶矩估计的随机目标函数的一阶梯度优化算法。该方法实现简单，计算效率高，内存需求小，对梯度的对角缩放具有不变性，并且非常适合数据和/或参数规模较大的问题。该方法还适用于非平

2025-01-05 16:53:13 862

原创 ADAM的局限性

Adam 算法在许多情况下都能快速收敛，特别是在处理大规模数据和复杂模型时表现出更高的效率和稳定性。尽管存在一些缺点，但其在实际应用中表现出了优异的性能，特别是在需要快速得到结果的场景中。Adam 算法在某些情况下可能会出现震荡现象，影响收敛速度。

2025-01-04 23:24:37 770

原创链路预测评价指标

[1] 链路预测算法的评价指标

2025-01-04 17:58:55 205

原创 FEDNEST:联邦双层，极大极小和成分优化

标准联邦优化方法成功地应用于具有单层结构的随机问题。然而，许多当代的机器学习问题——包括对抗性鲁棒性、超参数调优、actor-批评家——都属于嵌套的双层规划，其中包含极大极小和复合优化。在这项工作中，我们提出FEDNEST:一种联邦交替随机梯度方法来解决一般的嵌套问题。我们建立了存在异构数据的FEDNEST的可证明收敛速率，并引入了双层、极大极小和成分优化的变量。FEDNEST引入了多项创新，包括联邦超梯度计算和方差缩减，以解决内部级异构问题。

2025-01-04 17:58:25 943

原创 Natasha 2

对于函数。

2025-01-03 23:06:25 564

原创 Natasha 2：比 SGD 更快的非凸优化

对于函数。

2025-01-03 22:49:48 930

原创如何使梯度随机变小：更快的凸和非凸 SGD

如何使梯度随机变小：更快的凸和非凸 SGD摘要在凸优化和机器学习中，经典目标是设计算法以减小目标值，即找到满足 f(x)−f(x∗)≤εf(x) - f(x^*) \leq \varepsilonf(x)−f(x∗)≤ε 的点 xxx。相比之下，梯度的收敛速度，即找到满足 ∥∇f(x)∥≤ε\|\nabla f(x)\| \leq \varepsilon∥∇f(x)∥≤ε 的点 xxx 所需的迭代次数 TTT，是一个更难的问题，有时需要新的算法思想。本文研究了在随机凸优化中如何使梯度随机变小，并提出了两

2025-01-03 22:30:37 905

基于专利数据的技术融合研究综述_吕璐成.pdf

空空如也