笔记-《A Survey of Large Language Models》- 4 预训练

  • 4 预训练
    • 预训练为 LLM 的能力奠定了基础。 通过在大规模语料库上进行预训练, LLM 可以获得基本的语言理解和生成能力 [55, 56]。在这个过程中, 预训练语料库的规模和质量对于 LLM 获得强大的能力至关重要。
      • 此外,为了有效地预训练 LLM,也需要设计好模型架构、 加速方法和优化技术。
      • 第 4.1节讨论数据收集和处理
      • 第 4.2节介绍常用的模型架构
      • 第 4.3节介绍用于稳定高效地优化 LLM 的训练技巧。
    • 4.1 数据收集
      • 相比小规模语言模型, LLM 更需要高质量数据来预训练模型, 并且它们的模型能力很大程度上依赖于预训练语料库及其预处理方式。
      • 4.1.1 数据来源
        • 要开发出一个有能力的 LLM,其关键在于从各种数据来源中收集大量的自然语言语料库。
        • 预训练语料库的来源可以广义地分为两种类型:通用文本数据和专用文本数据。
        • 通用文本数据:
          • 绝大多数的 LLM 采用了通用的预训练数据, 比如网页、 书籍和对话文本等, 这些数据源提供了丰富的文本资源, 并且涉及了多种主题。
          • , 我们简要总结三种重要的通用文本数据。
            • 网页:
            • 对话文本:
            • 书籍:
          • 专用文本数据:
            • 专用数据集对于提高 LLM 在特定下游任务中的能力非常有用。接下来,我们介绍三种专用数据类型。
            • 多语言文本:
            • 科学文本:
            • 代码:
      • 4.1.2 数据预处理
        • 在这部分中,我们将细致地回顾提高收集数据质量的数据预处理策略 [59, 69, 109]。预处理 LLM 的预训练数据的典型流程已在图 3中说明。
        • 质量过滤:
          • (1) 基于分类器的方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L_serein

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值