
大模型训练
文章平均质量分 78
*星星之火*
从菜鸟到专家,陪同大家一起成长
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大模型进阶】第一课 模型微调实战-从环境准备到训练
摘要本文详细记录了在AutoDL服务器上部署和训练DeepSeek-R1模型的过程。首先验证服务器内核版本(5.15.0-124-generic)满足最低要求,确认CUDA 12.8环境后,通过conda创建Python 3.10环境并安装PyTorch 2.6.0及相关依赖。文章重点展示了使用LLaMA-Factory框架进行模型训练的准备工作,包括环境配置、显卡监控工具nvitop的安装使用,以及模型加载的关键步骤(需注意device_map参数的调整)。整个流程涵盖了从服务器选购、环境搭建到训练监控原创 2025-07-09 11:26:07 · 932 阅读 · 0 评论 -
【GPT模型训练】第二课:张量与秩:从数学本质到深度学习的基础概念解析
在数学和物理学中,张量是一种多维数组,用于表示物理量或几何实体在不同坐标系下的变换关系。在机器学习和深度学习中,张量是数据的基本表示形式,类似于多维数组或矩阵的扩展。张量:多维数组,用于表示数据或物理量。张量的秩:张量的维度数,即需要多少个索引来定位元素。拼音:秩(zhì)。理解张量和秩的概念是学习深度学习和线性代数的基础!原创 2025-06-08 22:09:31 · 448 阅读 · 0 评论