HuggingFace PEFT项目中的模型合并技术详解-优快云博客

HuggingFace PEFT项目中的模型合并技术详解

【免费下载链接】peft 🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning. 项目地址: https://gitcode.com/gh_mirrors/pe/peft

引言

在深度学习领域，为每个任务单独训练模型会带来高昂的计算成本、存储空间占用以及模型无法跨任务学习等问题。HuggingFace的PEFT（Parameter-Efficient Fine-Tuning）项目提供了一种创新的解决方案——模型合并技术，能够将多个预训练模型高效地合并为一个多功能模型。

模型合并的核心价值

模型合并技术主要解决了以下痛点：

资源效率：避免为每个任务保存完整模型副本
知识共享：合并后的模型可以继承多个源模型的能力
零训练成本：无需额外训练即可获得多任务处理能力

PEFT中的两种先进合并方法

1. TIES方法（TrIm, Elect, and Merge）

TIES是一种三阶段合并算法：

修剪阶段：去除冗余参数
选举阶段：解决参数符号冲突
合并阶段：对符号一致的参数进行平均

技术特点：

特别关注冗余参数和符号分歧对模型性能的影响
通过参数修剪和符号统一提升合并质量
适合需要保留模型特定特性的场景

2. DARE方法（Drop And REscale）

DARE是一种预处理方法：

随机丢弃：按给定比例随机丢弃参数
重新缩放：保留的参数进行适当缩放
为后续合并准备：通常与TIES等方法配合使用

技术优势：

有效减少参数干扰
提高后续合并方法的稳定性
特别适合大规模模型合并

实践指南：LoRA适配器合并

环境准备

首先加载基础模型和多个适配器：

from peft import PeftConfig, PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载基础配置和模型
config = PeftConfig.from_pretrained("smangrul/tinyllama_lora_norobots")
model = AutoModelForCausalLM.from_pretrained(
    config.base_model_name_or_path, 
    load_in_4bit=True, 
    device_map="auto"
).eval()

# 调整词汇表大小（处理特殊token）
model.config.vocab_size = 32005
model.resize_token_embeddings(32005)

# 加载多个适配器
model = PeftModel.from_pretrained(model, "smangrul/tinyllama_lora_norobots", adapter_name="norobots")
model.load_adapter("smangrul/tinyllama_lora_sql", adapter_name="sql")
model.load_adapter("smangrul/tinyllama_lora_adcopy", adapter_name="adcopy")

合并操作示例

TIES合并方式

adapters = ["norobots", "adcopy", "sql"]
weights = [2.0, 1.0, 1.0]  # 权重总和不必为1，大于1的值通常效果更好
adapter_name = "merge"
density = 0.2  # 保留20%的参数

model.add_weighted_adapter(
    adapters, 
    weights, 
    adapter_name, 
    combination_type="ties", 
    density=density
)

DARE合并方式

adapters = ["norobots", "adcopy", "sql"]
weights = [2.0, 0.3, 0.7]  # 更灵活的权重分配
adapter_name = "merge"
density = 0.2

model.add_weighted_adapter(
    adapters, 
    weights, 
    adapter_name, 
    combination_type="dare_ties", 
    density=density
)

激活合并模型

model.set_adapter("merge")

合并模型的应用示例

广告文案生成

messages = [
    {"role": "system", "content": "Create a text ad given the following product and description."},
    {"role": "user", "content": "Product: Sony PS5 PlayStation Console\nDescription: The PS5 console unleashes new gaming possibilities that you never anticipated."},
]

text = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
inputs = tokenizer(text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128, do_sample=True, top_p=0.95)
print(tokenizer.decode(outputs[0]))

SQL查询生成

text = """Table: 2-11365528-2
Columns: ['Team', 'Head Coach', 'Leader', 'Home Ground', 'Location']
Natural Query: Who is the Head Coach of the team whose Leader is Mario Volarevic?
SQL Query:"""

inputs = tokenizer(text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.decode(outputs[0]))

(IA)³模型的线性合并

对于(IA)³模型，合并过程更为简单：

adapters = ["adapter1", "adapter2", "adapter3"]
weights = [0.4, 0.3, 0.3]  # 建议权重总和为1.0
adapter_name = "merge"

model.add_weighted_adapter(adapters, weights, adapter_name)
model.set_adapter("merge")

最佳实践与注意事项

权重选择：初始尝试时可设置所有权重为1.0，然后根据任务需求调整
密度参数：0.2是一个合理的起始值，可根据模型大小调整
特殊token处理：合并全模型时需注意词汇表扩展问题
性能监控：合并后应在所有目标任务上评估性能

结语

PEFT提供的模型合并技术为多任务学习提供了一种高效、灵活的解决方案。通过合理使用TIES和DARE等方法，开发者可以轻松创建具备多种能力的复合模型，而无需承担额外的训练成本。这种技术特别适合资源有限但需要模型具备多种能力的应用场景。

【免费下载链接】peft 🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning. 项目地址: https://gitcode.com/gh_mirrors/pe/peft

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考