
从零到亿大模型微调
文章平均质量分 92
本专栏记录从零开始,通过微调与训练模型实现垂类任务,帮助各位精英大佬在私有领域实现效率翻倍、质量提升甚至业务变现,让大模型真正走入大家的生活,成为最有效的助手。
CITY_OF_MO_GY
计算机视觉、多模态大模型
展开
-
垂类大模型微调(四):基于小参数多模态模型的全量(full)SFT微调
前面我们介绍了、简单展示了其以及总结了一些和;那接下来我们就结合具体的应用场景,微调一个垂类大模型,话不多说,我们开始吧~原创 2025-03-02 17:34:58 · 793 阅读 · 0 评论 -
垂类大模型微调(三):大模型训练、微调、量化相关理论基础
定义:监督微调是使用高质量的人类标注数据对预训练模型进行进一步训练,使其更好地适应特定任务。作用:提升模型在特定场景下的表现,减少输出与人类期望之间的偏差。过程:使用输入-输出配对数据进行有监督训练。定义:DPO 是一种替代传统强化学习的方法,直接基于偏好数据优化模型参数,而不需要显式构建奖励模型。作用:简化了奖励建模的过程,同时保持了高效性和稳定性。特点不需要单独训练奖励模型。更加高效,适合大规模训练场景。原创 2025-02-25 08:09:29 · 1046 阅读 · 0 评论 -
垂类大模型微调(二):使用LLaMA-Factory
这里演示对Qwen2.5-0.5B-Instruct-GPTQ-Int4模型进行LoRA微调, 大家可以根据垂类大模型微调(一)从魔塔中下载对应模型;目前该工具支持指令监督微调(Alpaca格式)和多轮对话微调(ShareGPT格式)两种数据集格式,这里我们使用指令监督微调指令监督微调指令监督微调;"instruction": "指令(必填)","input": "文本输入(选填)","output": "标签回答(必填)"例如:"instruction": "将下面的句子翻译为中文",原创 2025-02-23 21:38:11 · 1344 阅读 · 0 评论 -
垂类大模型微调(一):认识LLaMA-Factory
高效微调支持支持多种微调技术(如 LoRA、QLoRA 等),显著降低显存消耗,即使在小规模 GPU(如单卡 24GB)上也能训练数十亿参数的模型。提供分布式训练优化,支持多卡并行和混合精度训练,加速训练过程。丰富的模型兼容性支持主流开源 LLM,包括 LLaMA、BLOOM、GPT-2、ChatGLM、Baichuan、Qwen 等。可灵活适配不同模型架构,方便用户快速切换或对比实验。用户友好性提供清晰的命令行接口(CLI)和 Web UI,用户无需深入编码即可配置训练参数、数据集和模型。原创 2025-02-23 15:25:51 · 1305 阅读 · 0 评论