DeepSeek-R1-Distill大模型微调实战

原创

已于 2025-04-03 18:24:57 修改 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #nlp #python #pytorch

于 2025-04-03 18:17:25 首次发布

从原理到民宿推荐模型实现

一、DeepSeek-R1-Distill：中文大模型的明日之星

DeepSeek-R1-Distill是基于Qwen架构的7B参数中文大模型，通过知识蒸馏技术从更大规模的教师模型中提炼而来。其火爆原因主要有：

卓越的中文处理能力：专为中文优化的tokenizer和预训练策略，在CLUE等中文基准测试中表现优异
高效推理特性：相比原版模型推理速度提升40%，响应延迟降低50%
硬件适配广泛：支持4bit/8bit量化，不用很顶级的卡即可流畅运行推理模型
微调友好设计：完美适配LoRA、QLoRA等高效微调方法

二、大模型微调核心技术解析

本文将用一个例子来简单了解一下deepseek的微调，，这当中也有之前讲过的Accelerate 单机多卡使用指南的Accelerate ，有兴趣可以去看看，多多指教。

1. 高效微调技术对比

技术	参数更新比例	显存需求	训练速度	效果保持率
全参数微调	100%	极高	慢	100%
LoRA	0.1%-1%	低	快	95%-98%
QLoRA	0.1%-1%	极低	较快	90%-95%

2. LoRA原理与优势

LoRA（Low-Rank Adaptation）通过在原始权重旁添加低秩分解矩阵来实现微调：

W = W₀ + BA
其中 B ∈ ℝ^{
   
   d×r}, A ∈ ℝ^{
   
   r×k}, r ≪ d,k

优势：

仅需训练极少量参数（通常<1%）
可插拔式设计，无需保存多个模型副本
几乎不增加推理延迟

3. QLoRA的进一步优化

QLoRA = 量化(4bit) + LoRA，核心改进：

4bit NormalFloat量化策略
双重量化减少内存开销
分页优化器防止显存溢出

三、民宿推荐场景微调实战

1. 环境准备

conda create -n deepseek python=3.10
conda activate deepseek
pip install unsloth torch transformers datasets trl wandb

2. 数据准备

针对民宿推荐自己做了一些构想，模拟生成了数据，主打一个自己玩。

#data_generator.py
import json
import random
import logging
import os
from datetime import datetime
from faker import Faker
import csv

logging.basicConfig(level=logging.INFO)

# 海南城市配置
HAINAN_CITIES = {
   
   
    "三亚": {
   
   
        "districts": ["海棠湾", "亚龙湾", "大东海", "三亚湾", "崖州"],
        "tags": ["海景房", "游艇码头", "免税店附近", "高端酒店群"],
        "price_range": (800, 5000),
        "attractions": ["蜈支洲岛", "天涯海角", "南山寺", "亚特兰蒂斯水世界"],
        "cuisine": ["文昌鸡", "和乐蟹", "东山羊", "椰子鸡火锅"]
    },
    "海口": {
   
   
        "districts": ["美兰区", "龙华区", "秀英区", "琼山区"],
        "tags": ["商务中心", "骑楼老街", "火山口景观", "城市度假"],
        "price_range": (300, 2000),
        "attractions": ["骑楼老街", "火山口公园", "五公祠", "假日海滩"],
        "cuisine": ["海南粉", "辣汤饭", "清补凉", "老爸茶"]
    },
    "万宁": {
   
   
        "districts": ["日月湾", "石梅湾", "兴隆镇", "神州半岛"],
        "tags": ["冲浪基地", "咖啡庄园", "热带植物园", "高尔夫度假"],
        "price_range": (400, 3000),
        "attractions": [
            "日月湾冲浪基地", 
            "兴隆热带植物园",
            "石梅湾凤凰九里书屋",
            "神州半岛灯塔"
        ],
        "cuisine": [
            "兴隆咖啡", 
            "和乐蟹", 
            "东山羊", 
            "后安粉汤"
        ]
    },
    "琼海": {
   
   
        "districts": ["博鳌镇", "嘉积镇", "潭门镇", "中原镇"],
        "tags": ["论坛会址", "渔港风情", "温泉别墅", "田园民宿"],
        "price_range": (350, 2500),
        "attractions": [
            "博鳌亚洲论坛永久会址",
            "潭门千年渔港",
            "白石岭风景区",
            "龙寿洋万亩田野公园"
        ],
        "cuisine": [
            "嘉积鸭", 
            "温泉鹅", 
            "芒果肠粉", 
            "鸡屎藤粑仔"
        ]
    },
    "陵水": {
   
   
        "districts": ["清水湾", "分界洲岛", "椰田古寨", "黎安镇"],
        "tags": ["潜水胜地", "黎族文化", "海钓基地", "静谧海湾"],
        "price_range": (600, 4000),
        "attractions": [
            "分界洲岛海洋剧场",
            "南湾猴岛生态景区",
            "清水湾旅游区",
            "吊罗山国家森林公园"
        ],
        "cuisine": [
            "陵水酸粉", 
            "琵琶蟹", 
            "光坡阉鸡", 
            "椰子船"
        ]
    }
}

class FullSyntheticGenerator:
    def __init__(self,num_samples=5000, num_houses=1000,output_dir="data/synthetic"):
        self.fake = Faker(locale='zh_CN')
        self.output_dir = output_dir
        os.makedirs(self.output_dir, exist_ok=True)
        self.num_houses=num_houses
        self.num_samples = num_samples
        
        # 初始化动态配置
        self.all_districts = self._init_districts()
        self.tags_pool = self._build_tags_pool()
        
        # 固定随机种子保证可重复性
        random.seed(42)

    def _init_districts(self):
        """构建行政区数据集"""
        districts = []
        for city, info in HAINAN_CITIES.items():
            districts.extend([(d, city) for d in info["districts"]])
        return districts

    def _build_tags_pool(self):
        """构建三级标签系统"""
        return {
   
   
            "设施": ["海景阳台", "无边泳池", "私人厨房", "停车位",

最低0.47元/天解锁文章