Microsoft LoRA项目迁移指南：从旧版本到新版本的关键变化-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00792/article/details/148393295

Microsoft LoRA项目迁移指南：从旧版本到新版本的关键变化

LoRA Code for loralib, an implementation of "LoRA: Low-Rank Adaptation of Large Language Models" 项目地址: https://gitcode.com/gh_mirrors/lor/LoRA

前言

本文旨在帮助开发者顺利从Microsoft LoRA项目的旧版本迁移到新版本。我们将详细介绍各个版本间的重要变更，包括API变化、功能调整和最佳实践，确保您的项目能够平稳过渡。

从v3.x迁移到v4.x的重要变更

1. 默认使用快速(Rust)分词器

技术背景：
v4.x版本中，AutoTokenizers和pipeline默认使用基于Rust实现的快速分词器。相比Python实现，Rust分词器功能更全面但处理逻辑有所不同。

主要变更点：

溢出token的处理方式不同
Rust分词器不接受整数作为编码方法的输入

迁移方案：

# v3.x方式
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

# v4.x等效方式
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased", use_fast=False)

建议：除非有特殊需求，建议使用默认的快速分词器以获得更好的性能。

2. SentencePiece成为可选依赖

变更原因：
为了简化安装流程和增强兼容性，SentencePiece不再作为核心依赖。

影响范围：
以下tokenizer的慢速版本将受到影响：

XLNetTokenizer
AlbertTokenizer
CamembertTokenizer
MBartTokenizer等

解决方案：

# 完整安装方案
pip install transformers[sentencepiece]
# 或
pip install transformers sentencepiece

3. 模型文件目录结构调整

架构优化：
为应对模型数量增长，每个模型现在有独立的子目录。

代码变更示例：

# v3.x导入方式
from transformers.modeling_bert import BertLayer

# v4.x导入方式
from transformers.models.bert.modeling_bert import BertLayer

4. return_dict默认值变更

功能说明：
return_dict=True时，模型输出为字典形式，更易读且支持键值访问。

迁移方案：

# 保持v3.x行为
model = BertModel.from_pretrained("bert-base-cased", return_dict=False)
# 或
outputs = model(**inputs, return_dict=False)

5. 已弃用属性的移除

重要变更清单：

标签参数统一化：
- masked_lm_labels → labels (BERT/ALBERT等)
- lm_labels → labels (BART/GPT-2等)
缓存机制统一：
- decoder_cached_states → past_key_values
- past → past_key_values
Tokenizer属性变更：
- max_len → model_max_length
- return_lengths → return_length

从pytorch-transformers迁移的注意事项

关键词参数顺序变更

技术背景：
为支持Torchscript，部分模型的关键词参数顺序进行了调整。

最佳实践：
始终使用关键字参数调用模型，避免依赖位置参数顺序。

# 推荐方式
model(inputs_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)

从pytorch-pretrained-bert迁移的核心变化

1. 模型输出格式统一

变更说明：
所有模型forward方法现在统一返回元组，包含多个输出元素。

示例对比：

# 旧版方式
loss = model(input_ids, labels=labels)

# 新版处理
outputs = model(input_ids, labels=labels)
loss = outputs[0]
logits = outputs[1]  # 新增便捷访问

2. 序列化规范

重要变更：

from_pretrained()默认设置为评估模式
序列化参数处理逻辑变更
新增标准保存方法

推荐用法：

# 保存模型
model.save_pretrained('./saved_model/')
tokenizer.save_pretrained('./saved_model/')

# 加载模型
model = BertForSequenceClassification.from_pretrained('./saved_model/')

3. 优化器变更

优化器统一：
BertAdam和OpenAIAdam被AdamW取代，具有以下特点：

仅实现权重衰减校正
学习率调度外部化
梯度裁剪外部化

迁移示例：

from transformers import AdamW, get_linear_schedule_with_warmup

optimizer = AdamW(model.parameters(), lr=1e-3, correct_bias=False)
scheduler = get_linear_schedule_with_warmup(
    optimizer, 
    num_warmup_steps=100,
    num_training_steps=1000
)

# 训练循环
for batch in train_data:
    loss.backward()
    torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
    optimizer.step()
    scheduler.step()