使用DeepSeek从零开始构建一个聊天室模型及模型微调和模型发布并在项目中应用
设置训练的超参数,如学习率、批次大小、训练轮数等。output_dir='./results', # 输出目录num_train_epochs=3, # 训练轮数per_device_train_batch_size=4, # 每个设备的训练批次大小per_device_eval_batch_size=4, # 每个设备的评估批次大小warmup_steps=500, # 热身步数weight_decay=0.01, # 权重衰减率logging_dir='./logs', # 日志目录。
原创
2025-04-02 09:35:59 ·
615 阅读 ·
0 评论