大模型
文章平均质量分 90
旷野说
关注我,从零开始构建基础IT设施;公众号:旷野说;前大厂工程师(10年+研发经验);计算机科班生;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
训练100B 以上参数需要多少硬件?
规模是否可行(非巨头)建议策略<70B✅ 是自建集群或云服务100B⚠️ 极难寻求云厂商合作、融资支持❌ 几乎不可能改用MoE 架构或微调现有模型务实建议除非你有数千万美元预算 + 顶级 AI 工程团队微调开源百亿模型(如 Yi-34B、Qwen-72B);使用 MoE 架构(如训练一个 8×22B MoE);聚焦垂直领域,用 30B–70B 模型 + RAG 达到类似效果。如需具体 DeepSpeed 配置模板或成本模拟工具,可进一步说明。原创 2025-11-14 18:32:19 · 649 阅读 · 0 评论 -
大模型微调完全指南:Full、LoRA、QLoRA、P-Tuning 等主流方法详解
微调不再是“只有大公司玩得起”的技术。借助LoRA/QLoRA + 开源框架,个人开发者也能在消费级硬件上定制专属大模型。理解不同方法的权衡,选择与资源、任务匹配的策略。本文所有方法均可在中一键实验。不妨从一个 QLoRA 任务开始,亲手打造你的第一个定制模型!延伸阅读LoRA 原论文QLoRA 论文LLaMA-Factory 官方文档作者:一名关注高效 AI 开发的工程师 | 更新于 2025 年。原创 2025-11-14 18:23:48 · 799 阅读 · 0 评论
分享