大模型(LLMs)增量预训练篇

大模型(LLMs)增量预训练篇

为什么要增量预训练?

有一种观点,预训练学知识,指令微调学格式,强化学习对齐人类偏好,[L]{.underline} [IMA]{.underline}等论文算是这一观点的证据。

所以要想大模型有领域知识,得增量预训练。(靠指令微调记知识不靠谱,不是几十w条数据能做到的。)

进行 增量预训练 需要做哪些准备工作?

  1. 模型底座选型

    主流是LLaMA,因为[s]{.underline} [calin]{.underline} [g法]{.underline} [则]{.underline},可能LLaMA做了充分预训练。(当然有版权问题)

    这里备选BLOOM,感觉基座比LLaMA差,但是也有7B版本。

    [F]{.underline} [alcon]{.underline}、[C]{.underline} [PM-bee]{.underline}、[A]{.underline} [quila]{.underline}、[B]{.underline} [aichuan]{.underline}待实验,license友好,但生态和效果都是问题。其实,因为结构上都类似LLaMA,未来估计会出现整合这些模型的项目。

    (Falcon公布的训练语料中没有中文)

    这里没列ChatGLM和ChatGLM2,因为有种说法在SFT模型上增量预训练效果比较差。(未证实)

  2. 数据收集

    这里最经典的开源预训练数据还是wudao的200G和the[pile]{.underline}这两个数据集(怀念一下Open-Llama)加起来有1T的文本量,足够前期玩耍了。

    其实,刚开始实践的时候,不需要太多样本,先收集GB量级的领域文本跑通流程即可。

  3. 数据清洗

    当然这里数据治理可能是chatgpt魔法的最关键的部分,最基础的是把网页爬取数据中的广告清理掉。

    Falcon论文里介绍了数据清洗的手段,对于我们很有参考意义。

增量预训练 所用 训练框架?

  1. 超大规模训练

### 大模型 (LLMs) 技术介绍和发展 #### 定义与概述 大型语言模型(Large Language Models, LLMs),是指那些参数量巨大、经过大规模语料库训练的语言处理神经网络模型。这类模型能够执行多种自然语言处理任务,如文本生成、问答系统、翻译等,并展现出惊人的泛化能力和创造力[^3]。 #### 发展历程 自2018年以来,随着计算硬件的进步以及深度学习理论的发展,研究人员开始探索更大规模的预训练模型。标志性事件包括OpenAI发布的GPT系列、谷歌推出的BERT及其后续版本XLNet等。这些模型不仅在性能上远超传统方法,在应用场景方面也实现了前所未有的突破,标志着AI进入了大模型时代。 #### 关键特性 - **海量数据支持**:依赖于互联网上的大量文本作为训练素材; - **超强表达力**:通过多层Transformer结构实现复杂模式识别; - **广泛适用性**:适用于各种NLP下游任务而无需重新设计架构; - **持续进化能力**:可以通过增量更新保持最新状态并适应新需求; ```python import transformers as trfms model_name = "bert-base-uncased" tokenizer = trfms.BertTokenizer.from_pretrained(model_name) model = trfms.BertModel.from_pretrained(model_name) text = "This is a sentence." inputs = tokenizer(text, return_tensors="pt") outputs = model(**inputs) print(outputs.last_hidden_state.shape) ``` 此代码片段展示了如何加载预训练好的 BERT 模型并对给定句子进行编码操作。这只是一个简单的例子,实际应用中可以根据具体场景调整输入输出形式及配置选项。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xianghan收藏册

极简精品作,一分也是一份鼓励哦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值