从头训练一个数学编程大模型

原创已于 2025-01-16 16:37:57 修改 · 361 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #llama #olmo

于 2024-07-16 12:23:01 首次发布

人工智能专栏收录该内容

51 篇文章 ¥29.90 ¥99.00

订阅专栏

一、前言

前段时间基于OLMO 框架利用8张卡从头训练一个1B 大模型，以本文做一个简单的工作总结。SFT 微调采用LLaMA-Factory，评测使用OpenCompass 。大模型面向的任务：能写代码，能做简单的数学题。

二、训练

预训练

预训练语料的数据配比主要参考现有大模型预训练数据来源及分布，数据主要来源于Dolma 数据集。其中，Dolma 数据集中中文语料比较欠缺，因而补充WuDao 中文数据集。大模型预训练语料来源以及配比情况如下：

数据集	类型	token数量(B)	采样比例
CC	通用网页	19	2%
C4	通用网页	19	14%

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浅唱书令

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架

07-10

1785

近年来，大语言模型（Large Language Models，LLMs）在自然语言处理领域取得了突破性进展。从GPT-3到ChatGPT，再到最新的GPT-4，这些模型展现出了惊人的语言理解和生成能力，引发了学术界和产业界的广泛关注。然而，训练如此庞大的模型不仅需要海量的数据和计算资源，还需要复杂的工程实践和优化技巧。本文将深入探讨大语言模型的原理，并以7B参数规模的模型为例，详细介绍如何构建一个自动化训练框架，使读者能够亲自动手训练自己的大语言模型。

《英雄编程体验课》第 15 课 | C语言中的数学库

热门推荐

英雄哪里出来

07-05

5万+

C语言中的数学库

参与评论您还未登录，请先登录后发表或查看评论

从零训练的 1B 以下小模型汇总

zenRRan的博客

07-06

2820

知乎：Angry Bugs链接：https://zhuanlan.zhihu.com/p/693252663最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来，一直都想从头自己训练一个 1B 以下的模型，感觉这样才算是真的学过了。不过以手头的资源，也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料，主要是 GitHub 上的仓库和 Arxiv 上的 paper，顺便记录在这里。https...

OLMo2全开源LLM，含数据、代码和训练过程

m0_56255097的博客

11-28

1114

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

AllenAI 开源了关于大模型的所有细节！数据、代码、参数、训练过程，完全复现

夕小瑶科技说

02-08

1931

这些计划的发布将有助于研究目前尚不甚了解的模型方面，例如预训练数据与模型能力之间的关系、设计和超参数选择的影响，以及各种优化方法对模型训练的影响。OLMo模型的训练过程也不例外。需要注意的是，这些估算值应被视为下限，因为它们没有包括其他排放源，如硬件和数据中心基础设施的制造、运输和处置过程中的固有排放，以及使用、反弹效应或其他环境影响，如水消耗或采矿等。OLMo的发布不同于以往的努力，它不仅仅提供了模型权重和推理代码，而且包括了训练数据、训练和评估代码，甚至是训练过程中的中间模型检查点和日志。

OLMo - 训练和使用AI2 模型

AI工程化、开源分享、文档翻译、代码笔记

09-28

1831

一、关于 OLMo 安装二、模型概览 Checkpoints 三、推理关于微调检查点的推理量化四、Reproducibility 训练检查训练数据五、微调六、评估

大模型应用开发之预训练

weixin_46516647的博客

05-31

1319

预训练是研发大语言模型的第一个训练阶段，通过在大规模语料上进行预训练，大语言模型可以获得通用的语言理解与生成能力，掌握较为广泛的世界知识，具备解决众多下游任务的性能潜力1. 数据的收集1）通用文本数据（“主食”）来源：网页（C4 、RefinedWeb、CC-Stories 等）；书籍（Books3 、Bookcorpus2等）；特点：量大；多样；需要清洗；注意搭配2）专用文本数据（“特色”）

大模型系列｜垂直大模型的几种训练策略（一）

素质云笔记

08-03

1万+

垂直行业大模型的几种训练策略

如何从零开始训练大模型

qingkahui24689的博客

07-23

2093

现在大模型预训练，大家其实最关注的就是这个loss的收敛效果。这个时候，LR schedule的出现就是一个比较好的补充，能够补足优化器的一些问题。所以，你可以理解为，现在我们没有一个完美的油门，所以搞了俩油门，互相辅助。优化器是个老司机的油门，好用，但人类的经验是有局限性的，很容易陷入局部最优跑不出来。LR schedule像是一个全局的油门，定期更新，帮助老司机跳出局部最优。

AI大模型基础：预训练与微调（迁移学习与微调策略）

08-14

6301

预训练与微调是现代AI大模型（如BERT、GPT、ViT）的核心技术，基于迁移学习范式，通过在大规模数据集上预训练模型并在特定任务上微调，显著提升性能和效率。本文将深入讲解预训练与微调的原理、实现方法及在实际场景中的应用，适合对AI大模型感兴趣的读者。

【数据挖掘】关联分析之Apriori

听雨草堂

05-07

1万+

1.Apriori算法如果一个事务中有X，则该事务中则很有可能有Y，写成关联规则 {X}→{Y} 将这种找出项目之间联系的方法叫做关联分析。关联分析中最有名的问题是购物蓝问题，在超市购物时，有一个奇特的现象——顾客在买完尿布之后通常会买啤酒，即{尿布}→{啤酒}。原来，妻子嘱咐丈夫回家的时候记得给孩子买尿布，丈夫买完尿布后通常会买自己喜欢的啤酒。考虑到规则的合理性，

【数据挖掘】聚类之k-means

听雨草堂

04-18

9389

1.算法简述分类是指分类器（classifier）根据已标注类别的训练集，通过训练可以未知类别的样本进行分类，被成为监督学习（supervised learning）。如果训练集的样本没有标注类别，那么就需要用到聚类。聚类是把相似的样本聚成一类，这种相似性通常以距离来度量。聚类被称为无监督学习（unspervised learning）。 k-means是聚类算法中常用的一种

【数据挖掘】分类之Naïve Bayes

听雨草堂

04-28

8257

1.算法简介朴素贝叶斯（Naive Bayes）是无监督学习的一种常用算法，易于实现，没有迭代，并有坚实的数学理论（即贝叶斯定理）作为支撑。本文以拼写检查作为例子，讲解Naive Bayes分类器是如何实现的。对于用户输入的一个单词（words），拼写检查试图推断出最有可能的那个正确单词（correct）。当然，输入的单词有可能本身就是正确的。比如，输入的单词thew，用户

【数据挖掘】分类之kNN

听雨草堂

04-15

7946

1.算法简介 knn的思想挺简单的：计算待分类的数据点与训练集所有样本点，取距离最近的k个样本；统计这k个样本的类别数量；根据多数表决方案，取数量最多的那一类作为待测样本的类别。距离度量可采用Euclidean distance，Manhattan distance和cosine。用Iris数据集作为测试，代码参考[1] import numpy as np impor

【数据挖掘】分类之decision tree

听雨草堂

04-24

7365

1. ID3 算法 ID3 算法是一种典型的决策树（decision tree）算法，C4.5, CART都是在其基础上发展而来。决策树的叶子节点表示类标号，非叶子节点作为属性测试条件。从树的根节点开始，将测试条件用于检验记录，根据测试结果选择恰当的分支；直至到达叶子节点，叶子节点的类标号即为该记录的类别。 ID3采用信息增益（information gain）作为分裂属性

【推荐系统】协同过滤之基于用户的最近邻推荐

听雨草堂

05-23

7040

1.算法简介协同过滤（collaborative filtering）的核心思想：利用其他用户的行为来预测当前用户。协同过滤算法是推荐系统中最基本的，同时在业界广为使用。根据使用的方法不同，可以分为基于用户（user-based）、基于物品（item-based）的最近邻推荐。基于用户的最近邻推荐的主要思想：对于一个给定的评分集，找出与当前用户u口味相近的k个用户；然后，对

时间序列分解算法：STL

听雨草堂

08-18

1831

1. 详解 STL (Seasonal-Trend decomposition procedure based on Loess) [1] 为时序分解中一种常见的算法，基于LOESS将某时刻的数据\(Y_v\)分解为趋势分量(trend component)、周期分量(seasonal component)和余项(remainder component): \[Y_v = T _v + S_v ...

中文分词工具探析（一）：ICTCLAS (NLPIR)

听雨草堂

12-27

1509

【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR) 开源中文分词工具探析(二)：Jieba 开源中文分词工具探析(三)：Ansj 开源中文分词工具探析(四)：THULAC 开源中文分词工具探析(五)：FNLP 开源中文分词工具探析(六)：Stanford CoreNLP 开源中文分词工具探析(七)：LTP 1. 前言 ICTCLAS是张华平老师推出...