
大模型
文章平均质量分 92
盛世芳华
全栈
展开
-
DeepSeek-VL2使用swift微调的环境搭建和微调过程
最大模型用8张卡跑起来很难,需要降低--lora_rank、--lora_alpha、--max_length、--deepspeed、--per_device_train_batch_size、--gradient_accumulation_steps、--dataloader_num_workers才能刚好跑起来,虽然跑起来了,但训练速度却非常的慢。模型合并后,将模型复制到deepseek-vl2/deepseek-ai/目录下,使用deepseek-vl2的web.demo可以跑一下看看运行效果。原创 2025-03-05 08:46:34 · 1375 阅读 · 0 评论 -
swift自定义数据集微调Qwen-7B大模型,转换模型后使用ollama跑起来
-model_name 阿盛 Master Coder \--model_author 盛世芳华 LLM_ROME \微调时,只需指定--dataset为本地csv文件路径即可,csv文件的格式如下:instruction是问题,input大概能理解为问题背景,output为答案,数据集准备好以后就可以直接进行训练。ms-swift/docs/source/LLM/自定义与拓展.md at main · modelscope/ms-swift (github.com)原创 2024-08-27 15:31:53 · 5557 阅读 · 1 评论 -
swift微调Qwen-7B大模型
CUDA相关环境已搭建完成,不会装CUDA环境可参照我的其它文章;显卡:4张3090。原创 2024-08-23 09:09:29 · 1887 阅读 · 2 评论