GPT-1 vs BERT:两大预训练模型的技术对决与时代启示 一、技术黎明:GPT-1与BERT如何重塑NLP格局 1.1 历史背景与技术定位 维度 GPT-1 (2018) BERT (2018) 模型架构 Transformer解码器堆叠 Transformer编码器堆叠 预训练任务 自回归语言模型 掩码语言模型+下一句预测 核心创新 生成式预训练统一范式 双向上下文表征 参数量 1.17亿 3.4亿(Base) 训练数据 BookCorpus (4.5GB) BookCorpus + Wikipedia (16GB) 关键突破意义: GPT-1: