大模型
文章平均质量分 63
leo0308
兴趣领域: 大模型, 具身智能。
github: https://github.com/leo038
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[PyTorch] 搞懂多卡训练启动方式:python vs torchrun vs accelerate
摘要:本文对比了四种大模型训练启动方式的优劣。直接运行python train.py采用DataParallel模式,会导致GPU0显存爆炸,仅适合调试;torchrun+原生代码需要手动实现DDP,适合底层开发;torchrun+SFTTrainer虽简化DDP但DeepSpeed配置复杂;推荐使用accelerate launch,它能自动管理分布式配置并简化DeepSpeed集成,是大模型微调的最佳方案。建议7B+模型首选accelerate launch,小模型可用torchrun+SFTTrain原创 2026-01-04 20:33:06 · 460 阅读 · 0 评论 -
【LLM硬核】大模型显存精算指南:从推理到训练,模型到底需要多少显存?
无论是自己部署本地知识库,还是尝试微调一个垂直领域的模型,“显存到底够不够”永远是第一个要计算的问题。很多同学有一个误区:“7B 的模型文件只有 14GB,为什么我 24G 的 3090 跑训练还是直接爆显存?这篇文章将从底层原理出发,详细拆解推理、全量微调、LoRA微调三种场景下的显存计算公式,并附带 7B 和 70B 模型的实战估算。原创 2025-12-14 11:34:26 · 780 阅读 · 0 评论 -
Hugging Face 训练避坑指南:`device_map=“auto“` 在 SFTTrainer, Accelerate, Unsloth 中的正确用法
运行方式 / 使用的库用法核心原因 (一句话)pythonSFTTrainer必须加手动模式,需要开发者开启高级加载功能。不能加自动模式,与外部环境的管理权限冲突。unsloth可选 (不影响)智能模式,库本身已内置最佳实践。希望这篇博客能帮助你彻底搞懂的用法,让你的大模型微调之路更加顺畅!原创 2025-12-08 20:25:44 · 675 阅读 · 0 评论 -
【Python黑魔法】揭秘“猴子补丁”:一行代码改变世界,连HuggingFace都能被“魔改”!
你是否听说过一种能在程序运行时,动态修改甚至替换代码的“黑魔法”?它无需改动任何源代码文件,仅凭一行赋值语句,就能让一个库、一个类的行为发生翻天覆地的变化。这就是在 Python 等动态语言中既强大又危险的技术——猴子补丁 (Monkey-Patching)。本文将从一个生动的比喻入手,通过代码示例,最终揭示像Unsloth这样的高性能AI库是如何利用它来“魔改”HuggingFace Transformers,实现惊人性能的。关键词。原创 2025-12-08 14:04:18 · 631 阅读 · 0 评论 -
【LLM微调】拒绝“假装聪明”:SFTTrainer 中 completion_only_loss 新旧版本用法详解
摘要:本文探讨了指令微调大模型时常见的问题——训练指标优异但实际推理效果差,指出这是由于模型"作弊"背诵固定prompt而非学习回答逻辑。重点介绍了completion_only_loss解决方案,通过强制模型仅学习回答部分提升训练效果。详细对比了trl库0.20.0版本前后的实现差异:旧版需手动配置DataCollator,新版则通过SFTConfig直接启用该功能。文章还提供了新版代码实现步骤和常见避坑指南,强调需关闭packing参数并预处理数据集。正确使用该技术可使模型专注于生成原创 2025-12-07 16:38:20 · 438 阅读 · 0 评论 -
SFTTrainer多卡训练必备技巧:Accelerate极简上手指南
Hugging Face trl 库的 SFTTrainer 与 Accelerate 深度集成,只需三步即可实现多GPU加速训练: 启动方式:用 accelerate launch 替代 python 运行脚本 模型加载:删除 device_map="auto" 参数,由 Accelerate 自动分配 训练配置:在 SFTConfig 中添加三个关键参数: gradient_checkpointing=True gradient_checkpointing_kwargs={"原创 2025-12-06 20:56:37 · 885 阅读 · 0 评论 -
深度解析Hugging Face Accelerate:`Trainer`背后的“隐形”分布式引擎
假设你已经有了一个可以正常运行的单卡PyTorch训练脚本,现在想让它支持高效的多卡训练。这些繁琐的配置劝退了无数开发者。本文将为你介绍 Hugging Face 的。库,并与原生DDP做清晰对比,让你明白它如何用最少的代码,实现最优雅的多卡训练。你的脚本现在已经具备了在任何硬件上高效运行的能力。如果你想用原生PyTorch DDP进行多卡训练,你。标题:PyTorch分布式训练太复杂?:三行代码搞定,告别DDP“天书”还在为PyTorch原生的。(DDP)训练而头疼吗?原创 2025-12-06 20:50:31 · 356 阅读 · 0 评论 -
Hugging Face多卡训练“假快”?一文讲透`per_device_train_batch_size`的“陷阱”
多卡训练时GPU利用率低?可能是启动方式不对!用python直接运行会触发低效的DataParallel模式,导致batch_size被误解为总样本数。正确做法是使用accelerate launch启动,配合删除device_map参数并调整SFTConfig设置,启用高效的DistributedDataParallel模式。三步优化即可让所有GPU满负荷工作:1)改用accelerate launch;2)移除device_map="auto";3)配置gradient_checkp原创 2025-12-06 20:23:28 · 565 阅读 · 0 评论 -
【避坑指南】Hugging Face 已经下载了模型,为什么还要联网?如何彻底离线运行?
明明已经把模型文件全部下载到了本地,并且设置了离线模式环境变量,代码运行时依然尝试联网,导致报错。本文将从源码角度分析 Hugging Face库的联网机制,解释为什么设置了依然可能失败,并给出终极解决方案。如果在离线环境中遇到打印你传入的字符串。它必须是一个真实存在的本地文件夹绝对路径(如),绝不能是user/repo这种 ID 格式。确保已设置。确保目录里有以及等权重文件。一句话总结:想要彻底离线,不仅要断网,还要告诉代码“去读硬盘”,而不是“去读ID”。原创 2025-12-06 13:01:04 · 919 阅读 · 0 评论 -
让机器人先“脑补”再动手!CoT-VLA 用“视觉思维链”刷新操作纪录
CoT-VLA 用一张“想象中的未来照片”把大语言模型的“逐步思考”搬进机器人世界,让动作不再黑箱,让数据不再昂贵。留给我们的启发当 AI“会说会画”之后,“会想象”可能是通往通用机器人的下一站;若手机里的短视频都能变成机器人“脑内小剧场”,低成本大规模训练不再是梦。原创 2025-09-08 20:18:40 · 816 阅读 · 0 评论 -
7种流行Prompt设计模式详解:适用场景与最佳实践
本文介绍了7种提升大型语言模型性能的Prompt设计模式:1)思维链模式(CoT)通过分步推理提升复杂任务准确性;2)角色扮演模式赋予模型专业视角;3)少样本学习模式通过示例引导格式化输出;4)自我反思模式通过批判性评估提高输出质量;5)宪法AI模式确保输出符合伦理规范;6)检索增强生成(RAG)结合外部信息提高准确性;7)思维树模式通过多路径探索优化解决方案。每种模式都详细说明了核心原理、适用场景和使用要点,为开发者提供了系统化的Prompt设计方法论。原创 2025-09-05 11:24:08 · 977 阅读 · 1 评论 -
DINOv3不同尺寸模型效果比较
可以看到, 4个尺寸的模型都能较好的提取到图像的特征。实际使用时可以根据硬件情况合理选用, 不用盲目追求大的模型。选取 29M, 86M, 300M和840M 4个尺寸的模型进行特征可视化对比。原创 2025-09-02 16:52:33 · 342 阅读 · 0 评论 -
DINOv2 vs DINOv3 vs CLIP:自监督视觉模型的演进与可视化对比
论文链接官方主页/代码CLIP 由 OpenAI 提出,是多模态自监督学习的里程碑。它通过在互联网规模的图像-文本对上进行对比学习,使模型能够理解图像内容与自然语言之间的对应关系。其核心思想是:将图像和文本映射到同一语义空间,使得匹配的图文对距离更近,不匹配的更远。优点支持零样本分类(Zero-shot Classification),无需微调即可迁移到新任务。泛化能力强,在多种下游任务中表现优异。局限依赖大量带噪声的图文对数据。图像特征偏向全局语义,缺乏细粒度的密集特征。原创 2025-08-28 16:47:15 · 1403 阅读 · 0 评论 -
CLIP图像特征提取:`CLIPVisionModel` vs `CLIPModel.get_image_features()`,哪种更适合你的任务?
对比项模型类型仅视觉编码器完整 CLIP 模型(视觉 + 文本)输出维度768维(hidden size)512维(投影后)是否经过投影头❌ 否✅ 是是否与文本空间对齐❌ 否✅ 是是否适合跨模态任务❌ 不适合✅ 完全适合特征用途中间特征(backbone)标准嵌入(embedding)推荐程度⚠️ 不推荐✅ 强烈推荐。原创 2025-08-28 14:09:52 · 957 阅读 · 0 评论 -
huggingface离线下载模型使用方法
要离线使用Hugging Face模型,需先在线下载并保存模型到本地。使用AutoTokenizer和AutoModel的save_pretrained()方法保存模型文件,然后将整个文件夹复制到离线环境。加载时通过本地路径调用from_pretrained()即可。也可用huggingface-cli download命令下载模型,或设置TRANSFORMERS_OFFLINE=1环境变量强制离线模式。注意确保文件完整、版本兼容,大模型建议使用git lfs克隆。原创 2025-08-22 17:31:52 · 1035 阅读 · 0 评论 -
机器人等级划分: 从level0到level4
该报告系统性地提出了一个从商业可行性角度划分机器人发展的五级框架,清晰地描绘了从当前自动化到未来通用机器人(General-Purpose Robots)的演进路径。报告的核心是将机器人技术的发展划分为五个渐进的、商业上可实现的等级(Level)。每一级都建立在前一级的基础之上,解锁新的能力,并逐步取代更多的人类劳动力。SemiAnalysis发布了《机器人自主性等级》原创 2025-08-21 11:02:08 · 2114 阅读 · 0 评论 -
大模型参数高效微调方法
技术主要思想参数量适用场景LoRA低秩增量矩阵极小通用Adapter插入小适配器模块小多任务/多领域可训练前缀/提示向量极小多任务/低资源BitFit只训练偏置极小简单任务IA3可训练缩放因子极小通用稀疏差分参数极小极低资源Q-LoRA量化+LoRA极小极低显存结论这些高效微调技术都能在大模型参数几乎不变的情况下,快速适配新任务,极大降低了显存和存储需求。实际选择时可根据任务复杂度、硬件资源和目标效果灵活选用。原创 2025-07-10 19:15:27 · 370 阅读 · 0 评论 -
阿里巴巴 Qwen 系列大模型发展时间线与主要特性
Qwen(通义千问)是阿里巴巴达摩院研发的大语言模型系列。其命名源自中文“通义千问”,寓意着致力于通过技术回答人类的各种问题。从诞生之初,Qwen 就确立了拥抱开源社区、提供高性能、全尺寸模型家族的战略,并持续在多语言、多模态和前沿推理范式上进行探索和引领。原创 2025-07-01 20:43:31 · 3741 阅读 · 0 评论 -
Anthropic 系列大模型发展时间轴与主要特性
这是Anthropic迄今为止最重要的发布,从单一模型迭代转向了多层级的“模型家族”战略,并正式进入多模态领域。Anthropic正式将其研究成果产品化,推出了第一代Claude模型,并以长上下文窗口和可靠性作为核心卖点。在初代模型的基础上,Anthropic迅速迭代,进一步提升模型性能和上下文处理能力。这个阶段的核心是公开发布其AI安全研究的核心方法论,为后续所有模型奠定了基础。每一步都走得非常扎实且目标明确。原创 2025-06-29 18:22:53 · 1128 阅读 · 0 评论 -
OpenAI 系列大模型发展时间轴与主要特性
这个阶段的核心是验证了“生成式预训练 Transformer” (Generative Pre-trained Transformer) 这一技术路径的巨大潜力。这是AI走向大众的关键一年。核心从“模型能做什么”转向“模型应该做什么”,并通过一款现象级产品引爆全球。模型规模达到前所未有的高度,并开始通过API对外提供服务,同时能力拓展到代码和图像领域。模型在推理能力上达到新高度,并开始原生、无缝地融合多种模态。每一步都踩在了时代的关键节点上。原创 2025-06-29 17:25:36 · 2540 阅读 · 0 评论 -
Google 系列大模型时间线与主要特性
Google大模型发展历程可分为三个阶段:2017-2019年为奠基期,核心突破包括Transformer架构(奠定技术基础)、BERT(双向预训练模型)和T5(统一文本任务框架);2020-2022年进入快速发展阶段,诞生了对话专用模型LaMDA、超大参数模型PaLM,以及跨模态的Imagen(文生图)和MusicLM(文生音乐);2023年后聚焦多模态与开源,推出升级版PaLM 2、Gemini多模态系列,并开源轻量级Gemma模型。最新突破Gemini 1.5 Pro支持百万token长文本处理。这一原创 2025-06-29 12:22:22 · 1084 阅读 · 0 评论 -
模型上下文协议(MCP)使用指南
模型上下文协议(Model Context Protocol, MCP)是一个开放标准,旨在为开发者建立数据源与AI工具之间安全的双向连接。MCP由Anthropic在2024年11月正式发布并开源,其目标是标准化AI应用程序(聊天机器人、IDE助手或自定义代理)与外部工具、数据源和系统的连接方式。模型上下文协议(MCP)为AI应用程序与外部数据源和工具的集成提供了标准化解决方案。原创 2025-06-15 15:16:00 · 1170 阅读 · 0 评论 -
模型上下文协议(MCP)实践指南
本文介绍了Model Context Protocol (MCP) Python SDK的安装和使用过程。首先需要通过pip install "mcp[cli]"安装MCP,要求Python版本大于3.10。运行测试demo时可能遇到"npx not found"错误,需安装Node.js和npm。在Ubuntu系统中可使用sudo apt install nodejs npm安装依赖,但会连带安装大量其他组件。安装完成后还需自动安装@modelcontextprot原创 2025-06-10 20:29:53 · 1491 阅读 · 0 评论 -
大模型编程助手-windsurf
可以选择不同的模型, 有些模型是免费的, 有些是要花积分的。比如GPT-4.1(promo)需要0.25积分, deepseek就是免费的。积分是按次收的,无论问题复杂度如何。2 在pycharm中通过插件使用。1 使用windsurf的IDE。原创 2025-06-06 15:26:51 · 857 阅读 · 0 评论 -
模型上下文协议(MCP)
参考:https://zhuanlan.zhihu.com/p/27327515233原创 2025-06-06 10:45:12 · 124 阅读 · 0 评论 -
推荐一款代码阅读神器-deepwiki
DeepWiki是由Cognition AI(Cognition Labs)基于其明星产品Devin(全球首个AI软件工程师)开发的一款开源工具,旨在通过AI技术为GitHub代码仓库生成交互式文档和知识库。自2025年4月27日发布以来,DeepWiki迅速成为开发者社区的热门工具,被誉为“GitHub的维基百科”。方法2 把github代码仓库中的地址github.com 替换成deepwiki.com。方法1 可以直接在官方首页中搜索想要查看的代码仓库。原创 2025-06-01 12:18:54 · 671 阅读 · 0 评论 -
Qwen2.5-VL 模型实现目标检测
因为模型和权重是开源的, 可以本地部署, 也可以直接使用api调用更为方便。Qwen2.5-VL模型是一个视觉语言多模态大模型。原创 2025-04-30 12:09:38 · 3017 阅读 · 1 评论 -
DINO, Grounding DINO, DINO-X系列工作解读
有2个版本的模型, 分别是Pro和Edge, Pro主打效果好, Edge版本主打高性能, 牺牲了一定的效果。把闭集检测器划分为3个阶段, 并且在3个阶段都进行了融合, 包括特征增强, 语言引导的查询选择 和交叉模态的编码器。这也是区别其他方法的地方, 其他方法一般在1-2个阶段进行融合。DINO-X 具备了基础的目标级别的表征能力, 可以支持多种目标感知和理解的任务, 比如检测, 分割, 姿态估计, 问答等等。DINO 的主要贡献是在之前的DETR系列工作上提出了3点改进, 从而提升了模型的性能和效率。原创 2025-03-05 20:00:38 · 2540 阅读 · 0 评论 -
分享我的大模型科研神器组合-紫东太初 + CodeGPT
科研中最重要的2件事: 阅读文献和写代码。推荐2款大模型工具, 极大地提升科研效率!原创 2025-02-20 19:41:11 · 667 阅读 · 0 评论 -
单目深度估计SOTA方法
3 ZoeDepth。原创 2024-12-05 21:16:28 · 420 阅读 · 0 评论 -
深入理解Transformer中的位置编码
由于注意力的作用机制,不论输入序列的顺序如何,输出结果都是一样的。也就是丢失了位置信息。但是对于语言模型, 我们都知道顺序是很重要的, 所以需要对输入序列额外注入位置信息。从图上可以看出, 序列位置与位置编码有个近似的线性关系, 同时还有一定的周期特性,因此位置编码一定程度上反应了序列中的位置信息。Transformer 论文中采用了简单的相对位置编码, 用sin 和cos函数表示序列中不同位置的信息。横轴表示嵌入维度, 纵轴是token在序列中的位置, 如输入是一个长度是32的序列。原创 2024-11-03 22:01:47 · 742 阅读 · 0 评论 -
Next-Token Prediction is All You Need 智源发布原生多模态大模型Emu3
Emu3模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。与当前由扩散模型(如Stable Diffusion)和组合方法(如结合 CLIP视觉编码器和LLM)所主导的多模态大模型有显著不同。原创 2024-10-21 20:38:54 · 522 阅读 · 0 评论 -
OpenVLA-首个开源视觉语言动作大模型
在VLA这个领域, 比较著名的工作当数谷歌的RT系列, 有RT-1, RT-2, RT-X等等。但是RT系列没有开源代码, 想要复现还是有难度的。最重要的是, 没有提供fine-tune的方法, 无法根据自己的需要进行微调。现在大模型已经卷到了机器人领域。在视觉语言模型(VLM)的基础上, 加入机器人的动作(Action) 这一模态, 视觉语言动作大模型(VLA)是目前大模型应用于机器人的流行方法。原创 2024-10-21 20:10:05 · 2018 阅读 · 0 评论 -
大模型api谁家更便宜
GPT-4o mini 使用费用是0.15美元/1M 输入token, 0.6美元/1M 输出token,大约是GPT-4o的1/30, 性价比很高。ERNIE-4.0-Turbo-8K,使用费用是30元/1M 输入token, 60元/1M 输出token。GPT-4o 使用费用是5美元/1M 输入token, 15美元/1M 输出token,需要注意,百度千帆平台上还提供其他家的模型调用服务, 如llama, yi-34b等。拿最新的旗舰模型来看,原创 2024-09-10 20:01:26 · 2528 阅读 · 0 评论 -
Ollama加载gguf模型
在 https://huggingface.co/models 上搜索对应模型的gguf文件下载即可。如 Qwen/Qwen2-0.5B-Instruct-GGUF。文件格式没要求, 用简单的txt文件就行。原创 2024-08-02 19:14:32 · 4119 阅读 · 2 评论 -
Ollama运行qwen2:7b 输出乱码
现象: 运行qwen2:7b模型, 无论输入是什么, 输出都是无意义的GG。原创 2024-07-23 20:00:24 · 3834 阅读 · 0 评论 -
解决llama_index中使用Ollama出现timed out 问题
【代码】llama_index中使用Ollama是出现timed out 问题。原创 2024-07-22 21:38:01 · 3152 阅读 · 0 评论 -
huggingface离线模型使用方法
参考:https://huggingface.co/docs/transformers/installation#offline-mode原创 2024-07-22 00:02:47 · 1656 阅读 · 1 评论 -
os.environ设置环境变量与export的不同
使用llama_index 中的huggingface模型时, 由于网络问题, 无法访问外网, 我用os.environ设置了镜像站, 发现下载的时候这个镜像站地址没起作用, 还是去huggface.co下载模型了。os.environ和export 都可以用来临时设置环境变量。然而它们的使用却有不用的效果。后就是从镜像站下载了。原创 2024-07-19 21:15:37 · 634 阅读 · 0 评论 -
解决huggingface模型不能下载的几个方法
设置以下环境变量:前提是你有可以访问外网的代理。原创 2024-07-17 21:22:02 · 8385 阅读 · 0 评论
分享