笔记-《A Survey of Large Language Models》- 4 预训练

最新推荐文章于 2025-06-03 14:04:12 发布

L_serein

最新推荐文章于 2025-06-03 14:04:12 发布

阅读量1.7k

点赞数 61

分类专栏：玩转LLM 文章标签：笔记语言模型人工智能

本文链接：https://blog.youkuaiyun.com/L_serein/article/details/137002620

版权

                    
                        
                    
                    4 预训练 
  预训练为 LLM 的能力奠定了基础。 通过在大规模语料库上进行预训练, LLM 可以获得基本的语言理解和生成能力 [55, 56]。在这个过程中, 预训练语料库的规模和质量对于 LLM 获得强大的能力至关重要。 
    此外,为了有效地预训练 LLM,也需要设计好模型架构、 加速方法和优化技术。
第 4.1节讨论数据收集和处理
第 4.2节介绍常用的模型架构
第 4.3节介绍用于稳定高效地优化 LLM 的训练技巧。
 
4.1 数据收集 
    相比小规模语言模型, LLM 更需要高质量数据来预训练模型, 并且它们的模型能力很大程度上依赖于预训练语料库及其预处理方式。
4.1.1 数据来源 
      要开发出一个有能力的 LLM,其关键在于从各种数据来源中收集大量的自然语言语料库。
预训练语料库的来源可以广义地分为两种类型:通用文本数据和专用文本数据。
通用文本数据: 
        绝大多数的 LLM 采用了通用的预训练数据, 比如网页、 书籍和对话文本等, 这些数据源提供了丰富的文本资源, 并且涉及了多种主题。
, 我们简要总结三种重要的通用文本数据。 
          网页:
对话文本:
书籍:
 
专用文本数据: 
          专用数据集对于提高 LLM 在特定下游任务中的能力非常有用。接下来,我们介绍三种专用数据类型。
多语言文本:
科学文本:
代码:
 
 
 
4.1.2 数据预处理 
      在这部分中,我们将细致地回顾提高收集数据质量的数据预处理策略 [59, 69, 109]。预处理 LLM 的预训练数据的典型流程已在图 3中说明。
质量过滤: 
        (1) 基于分类器的方法