使用DPO在SageMaker中定制Nova模型

解决方案概述

在SageMaker训练作业中使用Nova定制配方的工作流程包含以下关键步骤:

  1. 选择特定Nova定制配方,该配方提供完整的配置参数来控制训练过程
  2. 通过API向SageMaker控制平面提交配方配置
  3. SageMaker使用训练作业启动脚本在托管计算集群上运行配方
  4. 训练完成后自动释放计算资源

业务用例实现

本案例重点优化Nova Micro模型在结构化函数调用方面的表现:

  • 使用nvidia/When2Call数据集进行DPO训练
  • 训练数据格式转换为Nova要求的聊天补全格式
  • 采用参数高效微调(PEFT)技术降低计算成本

数据集准备

from datasets import load_dataset
dataset = load_dataset("nvidia/When2Call", "train_pref", split="train")

DPO训练配置

recipe_overrides = {
    "training_config": {
        "trainer": {"max_epochs": 1},
        "model": {
            "dpo_cfg": {"beta": 0.1},
            "peft": {
                "peft_scheme": "lora",
                "lora_tuning": {
                    "loraplus_lr_ratio": 16.0,
                    "alpha": 128,
                    "adapter_dropout": 0.01,
                },
            },
        },
    },
}

模型评估结果

指标基准模型微调模型提升幅度
F10.260.4681%
ROUGE-10.380.5239%
ROUGE-20.280.4042%

模型部署

训练完成的模型可通过CreateCustomModel API部署到推理服务:

request_params = {
    "modelName": "nova-micro-sagemaker-dpo-peft",
    "modelSourceConfig": {"s3DataSource": {"s3Uri": model_path}},
    "roleArn": role,
}
response = bedrock.create_custom_model(**request_params)

资源清理

为避免产生额外费用,请确保删除以下资源:

  • SageMaker训练作业
  • 模型部署实例
  • 临时存储数据
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
    公众号二维码
    外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值