人工智能_大模型046_模型微调006_轻量化微调原理_Prompt-Tuning原理_P-Tunning原理_Prefix-Tuning原理_LoRA微调原理_低秩矩阵---人工智能工作笔记0181

本文介绍了轻量化微调的概念,包括Prompt Tuning、P-Tuning和Prefix-Tuning的原理。重点讲解了LoRA微调方法,它通过在Transformer模型的参数矩阵上叠加低秩矩阵来优化模型,尤其对Q和V矩阵进行叠加训练效果显著。此外,还探讨了低秩矩阵在数据压缩和处理中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

然后我们再来看一下,轻量化微调,这个过程,我们微调fine-tunning的过程很相似,

这里再说一遍:

1.首先加载我们的训练数据集,然后对数据进行处理,主要是对数据按特定的个数,拼接输入输出,训练数据主要包含,问题和答案,

2.然后把我们拼接好的训练数据,的文本转换成token ids, 注意 后面的数据规整器就是用来 对数据进行分批处理的,把数据按照batchsize进行划分

3.然后,再去加载tokenizer,对token进行序列化处理,然后,再去

4.加载模型  右边的部分就是训练器训练的过程

5.然后这里多了一块,就是注入参数,注意这里加载模型后,模型原来的参数都是冻结的,在训练过程中是不动的.

6.然后再定义和训练超参数.

然后我们再来看一下这个Prompt Tuning,这个轻量化微调的原理,可以看到

其实就是在他就是在X部分,注意这个X不分,其实就是我们对大模型提问的语句,生成的词向量矩阵,然后,现在我们做的就是

在这个我们的提问句对应的词向量矩阵X的前面,添加了几个P1 P2

内容概要:文章详细介绍了电梯门禁(梯控)系统的硬件安装与接线要点。首先强调了梯控板与楼层按键对接的重要性,包括遵循一一对应原则以避免错层、越层问题,允许空层存在以适应实际需求。接着阐述了不同接线方式(COM、NO、NC端口的不同组合)对用户权限的影响,如单层权限用户刷卡直达指定楼层,多层权限用户在特定接线方式下的操作限制。硬件安装方面,强调了无源干触点设计原则以确保电气隔离,防止系统间干扰,以及读卡器接入时的规范要求。文章还介绍了梯控系统的技术原理,如身份验证机制(二维码/IC卡/人脸识别)、消防联动功能(紧急情况下释放所有楼层权限),并指出该系统适用于小区、写字楼等场景,支持机器人乘梯SDK扩展。最后,根据不同场景需求提出了适用的接线方式选择,如严格管控场景下选择4.3接线以实现精准权限控制,限制多层用户手动选层场景下选择4.1接线并配合软件权限设置。; 适合人群:从事电梯安装维护的技术人员、楼宇自动化工程师及相关领域的管理人员。; 使用场景及目标:①指导技术人员正确安装和接线梯控系统,确保系统安全稳定运行;②帮助管理人员了解不同接线方式对用户权限的影响,以便根据实际需求选择合适的配置方案;③提升楼宇安全管理和服务质量,特别是在小区、写字楼等场所的应用。; 其他说明:梯控系统的正确安装和接线不仅关系到系统的正常运作,更直接影响到用户的安全和使用体验。因此,在实际操作中务必严格按照规范执行,同时关注最新的技术发展和应用场景变化,以确保系统始终处于最佳状态。
### 如何使用 P-Tuning 方法微调大模型 P-Tuning 是一种高效的参数微调方法,它通过在输入中插入可学习的提示(Prompt),使模型能够适应特定任务,而无需更新大量的预训练权重。这种方法显著降了计算和存储成本,同时保持了模型的良好性能。 以下是基于 GPT-2 模型的一个简化示例,展示如何应用 P-Tuning微调大模型: #### 示例代码:GPT-2 上的 P-Tuning 实现 假设我们有一个分类任务,目标是判断给定文本的情感极性(正面或负面)。我们将使用 P-Tuning 插入可学习的提示向量,并仅对该部分进行训练。 ```python import torch from transformers import GPT2LMHeadModel, GPT2Tokenizer # 加载预训练的 GPT-2 模型和分词器 model_name = 'gpt2' tokenizer = GPT2Tokenizer.from_pretrained(model_name) model = GPT2LMHeadModel.from_pretrained(model_name) # 定义超参数 prompt_length = 10 # 可学习提示的长度 batch_size = 8 # 批次大小 learning_rate = 5e-4 epochs = 3 # 训练轮数 # 初始化可学习的提示嵌入 (Prompt Embeddings) device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') embedding_dim = model.config.n_embd # 获取模型的隐藏维度 learnable_prompts = torch.nn.Parameter(torch.randn(prompt_length, embedding_dim)).to(device) # 冻结原生 GPT-2 参数 for param in model.parameters(): param.requires_grad = False # 构建优化器,只针对 learnable_prompts 进行梯度下降 optimizer = torch.optim.Adam([learnable_prompts], lr=learning_rate) # 数据集准备(此处仅为示意) def prepare_data(texts): inputs = [] for text in texts: tokenized_text = tokenizer.encode(text, add_special_tokens=False) input_ids = [tokenizer.bos_token_id] + list(range(len(tokenized_text)))[:prompt_length] + tokenized_text inputs.append(input_ids) return inputs texts = ["I love this movie", "This is terrible"] # 示例数据 inputs = prepare_data(texts) # 训练过程 for epoch in range(epochs): total_loss = 0 for batch in inputs: optimizer.zero_grad() # 添加可学习提示并传递到模型 input_tensor = torch.tensor(batch).unsqueeze(0).to(device) # 转换为张量 prompt_embedding = learnable_prompts.unsqueeze(0).expand(batch_size, -1, -1) # 广播至批次大小 full_input_embeddings = torch.cat((prompt_embedding, model.transformer.wte(input_tensor)), dim=1) attention_mask = torch.ones(full_input_embeddings.shape[:-1]).to(device) outputs = model(inputs_embeds=full_input_embeddings, attention_mask=attention_mask) logits = outputs.logits[:, prompt_length:, :] # 排除提示部分的影响 labels = input_tensor[:, prompt_length:].clone().detach() # 真实标签 loss_fn = torch.nn.CrossEntropyLoss(ignore_index=-100) shift_logits = logits[..., :-1, :].contiguous() shift_labels = labels[..., 1:].contiguous() loss = loss_fn(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1)) loss.backward() optimizer.step() total_loss += loss.item() avg_loss = total_loss / len(inputs) print(f"Epoch {epoch+1}/{epochs}, Loss: {avg_loss:.4f}") print("P-Tuning 微调完成!") ``` --- ### 关键点解析 1. **可学习提示的作用** 提示是一种附加到输入上的可学习向量,在本例中表现为 `learnable_prompts`。它们被插入到原始输入之前,用于引导模型生成符合任务需求的结果[^3]。 2. **冻结主干网络参数** 在 P-Tuning 中,为了避免高昂的计算代价,会冻结预训练模型的主要参数,仅允许提示向量参与反向传播和梯度更新[^1]。 3. **高效性和灵活性** 相较于传统全参数微调方式,P-Tuning 显著减少了需要更新的参数数量,从而提高了效率。此外,由于提示可以放置在输入的不同位置,该方法具有较高的灵活性[^4]。 4. **对比其他方法** P-TuningPrefix Tuning 都是在输入端加入额外的可学习组件,但前者更加通用,支持在任意位置插入提示;而 LoRA 则专注于修改注意力机制中的某些子模块[^3]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值