基于ChatGLM-Efficient-Tuning项目的新冠诊疗模型微调实践指南

原创于 2025-06-10 09:21:15 发布 · 335 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

基于ChatGLM-Efficient-Tuning项目的新冠诊疗模型微调实践指南

ChatGLM-Efficient-Tuning Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调项目地址: https://gitcode.com/gh_mirrors/ch/ChatGLM-Efficient-Tuning

前言

在医疗领域，构建能够理解医患对话并提供专业建议的AI助手具有重要意义。本文将详细介绍如何使用ChatGLM-Efficient-Tuning项目框架，基于真实医患对话数据对ChatGLM-6B模型进行微调，打造一个新冠诊疗辅助模型。本教程将从数据准备到模型评估，完整展示整个微调流程。

一、项目概述

ChatGLM-Efficient-Tuning是一个专注于高效微调大语言模型的项目，支持包括监督微调(SFT)、奖励模型训练(RM)和强化学习(RLHF)等多种训练方式。本项目特别适合在有限计算资源下对大型语言模型进行领域适配。

二、环境准备

硬件要求

GPU: 建议至少16GB显存(如NVIDIA V100或RTX 3090)
内存: 32GB以上
存储: 至少50GB可用空间

软件依赖

Python 3.8+
PyTorch 1.12+ (与CUDA版本匹配)
Transformers库
其他必要依赖项(可通过pip安装)

三、数据集处理

数据来源

本案例使用来自"好大夫在线"网站的1300余条新冠相关医患对话数据。原始数据为多轮对话格式，我们进行了以下预处理：

将多轮对话拆分为单轮问答对
划分为训练集(3471条)、验证集(333条)和测试集(410条)
格式化处理为JSON结构

数据结构示例

{
  "instruction": "患者提问内容",
  "input": "",
  "output": "医生回答内容"
}

四、监督微调(SFT)阶段

关键参数说明

finetuning_type: lora: 使用LoRA(低秩适配)高效微调方法
learning_rate: 5e-5: 初始学习率
batch_size: 4×8=32: 通过梯度累积实现的等效批大小
max_source_length: 1024: 输入文本最大长度
max_target_length: 128: 输出文本最大长度

训练曲线分析

从损失曲线可以看出：

训练初期损失快速下降
约3个epoch后趋于稳定
验证损失与训练损失同步下降，未出现过拟合

五、奖励模型(RM)训练

数据选择

使用GPT-4生成的中文对比数据集，包含回答质量评分

训练技巧

从SFT阶段模型初始化
较低学习率(1e-5)防止过拟合
短周期训练(1个epoch)

六、强化学习(RLHF)阶段

PPO算法关键点

使用SFT模型作为初始策略
RM模型提供即时奖励
KL散度防止策略偏离过大

参数注意事项

resume_lora_training: False: 创建新LoRA权重而非复用
较短输入长度(256)节省显存
关注奖励值上升趋势

七、模型评估

自动指标对比

BLEU和ROUGE分数显示SFT模型优于原始模型
PPO模型生成了更长的回复(平均长度提升约50%)

人工评估示例

对比原始ChatGLM-6B和微调后的模型：

原始模型回答笼统，缺乏针对性
微调模型能给出具体诊断建议
包含用药指导等专业内容

八、模型部署

使用项目提供的交互式demo脚本，可方便地加载多个LoRA适配器进行推理：

python src/cli_demo.py --checkpoint_dir covid/sft,covid/ppo

九、优化建议

数据层面：
- 扩充高质量医患对话数据
- 加入医学教科书知识
- 严格的数据清洗
训练层面：
- 尝试不同的LoRA配置
- 调整PPO超参数
- 加入课程学习策略
安全层面：
- 添加拒绝回答机制
- 输出结果审核
- 明确免责声明

十、总结

通过本教程，我们完整实践了：

使用LoRA高效微调大型语言模型
训练奖励模型评估回答质量
应用PPO算法进行强化学习
全面的模型评估方法

需要注意的是，本案例仅为技术演示，实际医疗应用需要更严格的质量控制和伦理审查。读者可基于此框架，探索更多领域适配的可能性。

ChatGLM-Efficient-Tuning Fine-tuning ChatGLM-6B with PEFT | 基于 PEFT 的高效 ChatGLM 微调项目地址: https://gitcode.com/gh_mirrors/ch/ChatGLM-Efficient-Tuning

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

裴才隽Tanya 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。