SWIFT环境配置及大模型微调实践

weixin_43870390

已于 2024-03-22 17:29:37 修改

阅读量1.3k

点赞数 3

文章标签： swift 开发语言 ios

于 2024-03-20 16:08:47 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43870390/article/details/136868224

版权

SWIFT环境配置及大模型微调实践

SWIFT环境配置
- 基础配置
- 增量配置
SWIFT Qwen_audio_chat大模型微调实践

SWIFT介绍参考：这里

SWIFT环境配置

基础配置

conda create -n swift python=3.8

pip install ms-swift[all] -U

# 下载项目
git clone https://github.com/modelscope/swift

增量配置

如果是运行qwen-audio，需要安装ffmpeg

apt-get update
apt-get

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_43870390

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

SWIFT:让大模型微调变得简单高效

步子哥的博客

08-03

1533

SWIFT的出现,无疑为大模型的定制化应用铺平了道路。它集成了当前最先进的训练技术,提供了全面的模型支持,同时保持了简单易用的特性。无论是初学者还是经验丰富的AI研究人员,都能在SWIFT中找到适合自己的工具。随着AI技术的不断发展,像SWIFT这样的开源框架将发挥越来越重要的作用。它不仅推动了技术的民主化,也为AI创新提供了重要的基础设施支持。可以预见,在SWIFT的助力下,更多创新的AI应用将会涌现,为各行各业带来新的机遇和变革。

swift微调多模态大语言模型

liguandong

05-05

2077

Qwen1.5微调训练脚本中，我用到了--dataset new_data.jsonl 这个选项，可以训练成功，但我看文档有提到--custom_train_dataset_path这个选项，这两个有什么区别呢，是不是对自己生成的数据集用--dataset new_data.jsonl 这种方式是不对的，但是为什么又确实训练成功了呢（至少模型确实学习到了训练资料中的知识） # Experimental environment: A100 # 2*40GB GPU me...

参与评论您还未登录，请先登录后发表或查看评论

【大模型实战】利用ms-swift微调框架对QwQ-32B推理模型进行微调

源泉的小广场

03-13

2938

大模型、大模型微调、大模型微调框架、lora微调、推理模型微调、强化推理、qwq-32b、ms-swift、微调框架

大模型管理工具：SWIFT

m0_37559973的博客

05-13

7487

SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）是魔搭ModelScope开源社区推出的一套完整的轻量级训练、推理、评估和部署工具，支持200+大模型、15+多模态大模型以及10+轻量化Tuners，让AI爱好者能够使用自己的消费级显卡玩转大模型和AIGC。

AI大模型ms-swift框架实战指南（十二）：模型量化效率提升指南

最新发布

寻道AI，探索AI无限可能！

04-28

1201

在人工智能模型的优化过程中，模型量化是一项关键技术，它能够在不显著降低模型性能的前提下，有效地减少模型的存储需求和计算量，从而提高模型的推理效率。本文将深入解读MS-Swift模型量化相关内容，包括支持的量化技术、环境准备、量化命令以及注意事项等，旨在帮助读者全面理解并掌握MS-Swift模型量化的核心要点与操作方法。MS-Swift提供了多种强大的量化技术，以满足不同场景下的模型优化需求。

【LLM大模型】介绍一个大语言模型的微调框架Swift

2301_81940605的博客

07-18

1582

微调（Fine-tuning）是指在已经预训练好的大语言模型基础上，使用特定领域或任务的数据集进行进一步的训练，使模型能够更好地适应并完成该领域或任务的具体要求。预训练的大语言模型通常在大规模通用语料库上进行训练，学习了语言的普遍规律和特征，但对于特定领域或任务的专业知识和特定需求，往往需要通过微调来优化。

LLM/MLLM之SWIFT：SWIFT(一个用于微调的可伸缩轻量级基础设施的工具)的简介、安装和使用方法、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

03-28

5530

LLM/MLLM之SWIFT：SWIFT(一个用于微调的可伸缩轻量级基础设施的工具)的简介、安装和使用方法、案例应用之详细攻略目录 SWIFT的简介 SWIFT的安装和使用方法 SWIFT的案例应用 SWIFT的简介 SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是一个用于微调的可伸缩轻量级基础设施的工具，支持近200种LLM和MLLM（多模

Swift大模型微调以及批量推理验证

2401_85375186的博客

06-07

3333

在深度学习和自然语言处理（NLP）领域，大规模语言模型如BERT、GPT-3等通过在大量数据上进行预训练获得了强大的语言理解和生成能力。这些预训练模型通常需要进行微调（Fine-tuning），以便在特定的下游任务上表现更好。微调可以采取不同的形式，包括full、LoRA和Q-LoRA。

【大模型微调】SWIFT：一种可扩展的轻量级基础设施用于微调

数智笔记

08-13

2871

最近在大型语言模型（LLMs）和多模态大型语言模型（MLLMs）方面的发展，利用基于注意力的Transformer架构，实现了卓越的性能和泛化能力。它们已经涵盖了传统学习任务的许多领域。例如，基于文本的任务，如文本分类和序列标注，以及以前使用不同模型解决的多模态任务，如视觉问答（VQA）和光学字符识别（OCR），现在可以基于一个基础模型处理。因此，LLMs和MLLMs，尤其是基于Transformer架构的模型的训练和轻量级微调，变得尤为重要。

LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 图像微调(LoRA) 教程(2)

AGI

10-12

1711

SWIFT 即 Scalable lightWeight Infrastructure for FineTuning (可扩展轻量级微调基础设施)，是高效、轻量级的模型微调和推理框架，支持大语言模型(LLM) 和多模态大型模型(MLLM) 的训练、推理、评估和部署。可以将 SWIFT 框架直接应用到研究和生产环境中，实现从模型训练和评估到应用的完整工作流程。

LLM - 使用 LLaMA-Factory 微调大模型 环境配置与训练推理教程 (1)

AGI

11-07

1700

LLaMA-Factory 是开源的大模型微调框架，用于高效地微调和部署大语言模型，支持多种预训练模型和微调算法，提供完整的工具和接口，对于预训练的模型进行定制化的训练和调整，以适应特定的应用场景。

InternVL 最佳实践 swift微调

强化学习曾小健

08-03

1550

系列模型，支持多轮多图推理，在单轮推理中，图像和文本可以交错，图像的位置需要由输入确定。映射算法对多模态模型不友好，可能导致不同 GPU 卡之间的内存分配不均匀。支持多轮对话，图片支持本地路径或者URL输入，多张图片以逗号','分隔。时出现，因为 modelscope 上的相应模型需要申请流程。您也可以直接输入上述格式，但请确保坐标使用千分之一刻度坐标。数据集中没有标签，则默认将图像放在最后一轮查询的开头。模型支持使用视频数据集进行训练，而无需指定标签。以作为例子，你也可以通过指定切换到其他模型。

通义千问模型微调——swift框架

W_extend的博客

03-19

932

服务器CUDA Version: 12.2。

Swift实战（微调多模态模型Qwen2.5 vl 7B）

Guo_Python的博客

03-18

2069

本教程利用Swift框架微调Qwen2.5 vl 7B模型，是用的数据集是OCR识别数据集，一共10万张图片。

swift自定义数据集微调Qwen-7B大模型，转换模型后使用ollama跑起来

盛世芳华

08-27

6695

-model_name 阿盛 Master Coder \--model_author 盛世芳华 LLM_ROME \微调时，只需指定--dataset为本地csv文件路径即可，csv文件的格式如下：instruction是问题，input大概能理解为问题背景，output为答案，数据集准备好以后就可以直接进行训练。ms-swift/docs/source/LLM/自定义与拓展.md at main · modelscope/ms-swift (github.com)

swift与Internvl下的多模态大模型分布式微调指南（附代码和数据）

07-10

4658

微调框架：swift微调模型：internvl-chat-v1_5微调任务：多模态大模型在指定任务上的OCR能力微调优化微调显存：55G，多batch时对单卡要求较高（4090不能满足需求）

【ms-swift 大模型微调实战】

放飞自我的coder

10-28

1687

【代码】【ms-swift 大模型微调实战】

swift微调参数

qq_33176363的博客

08-16

2554

等参数继承于lora的对应参数, 但。时生效. adalora的。

swift大模型微调

03-08

### 使用 Swift 对大模型进行微调 #### 安装与环境准备为了使用 Swift 进行大模型的微调，首先需要设置好开发环境。这可以通过创建一个新的 Conda 环境并安装必要的依赖来完成。 ```bash conda create -n swift python=3.8 pip install ms-swift[all] -U git clone https://github.com/modelscope/swift.git ``` 上述命令会建立一个名为 `swift` 的 Python 虚拟环境，并通过 Pip 工具安装最新版本的支持包以及下载 Swift 项目的源码副本[^2]。 #### 配置 Tuner 并启动训练过程 Swift 提供了一种称为 efficient tuners 的机制用于简化和加速微调流程。这些 tuner 是附加于原始模型之上的小型模块，在训练期间仅更新自身的权重而保持原有模型参数不变，从而减少计算资源消耗并加快收敛速度。其中一种广泛使用的 tuner 类型叫做 LoRA (Low-Rank Adaptation)[^1]。下面是一段简单的代码片段展示如何利用 LoRA 来调整预训练的语言模型： ```python from transformers import AutoModelForCausalLM, Trainer, TrainingArguments import torch from swift.tuners.lora import LoraConfig, get_peft_model model_name_or_path = "bigscience/bloom-7b1" output_dir = "./results" config = LoraConfig( r=16, lora_alpha=32, target_modules=["q", "v"], ) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) peft_model = get_peft_model(model, config) training_args = TrainingArguments( output_dir=output_dir, num_train_epochs=3, per_device_train_batch_size=4, gradient_accumulation_steps=2, learning_rate=1e-4, logging_dir=f"{output_dir}/logs", ) trainer = Trainer( model=peft_model, args=training_args, train_dataset=train_dataset, eval_dataset=val_dataset, ) trainer.train() ``` 此脚本定义了一个基于 BLOOM 架构的大规模语言模型实例化对象，并应用了 LoRA 设置对其进行个性化定制；接着设置了训练超参并通过 Hugging Face 的 `Trainer` API 启动整个学习周期[^1]。 #### 支持多种类型的专用领域模型除了通用目的之外，Swift 还特别强调对于某些特殊应用场景下的优化支持，比如编程辅助工具 CodeGeeX 或者数学问题解决专家 DeepSeek-Math 等等。这意味着当面对不同行业背景的任务时，用户可以选择更加贴合业务逻辑特点的基础架构来进行针对性改进[^3]。