0 Abstract
- 选择合适的模型参数以及训练超参对于提升模型性能非常重要;
- 文章通过检查基于泛化度量的模型选择来扩展先前的分析:
- 聚焦于NLP任务;
- 考虑直接预测测试误差(test error)而不是泛化差距(generalization gap)的指标;
- 考虑不需要通过数据参与计算的指标。
- 文章做了什么:
- 对不同设置下数百个预训练Transformer模型进行了研究,包括变化数据量、模型大小和优化超参数等;
- 对来自Huggingface的8个NLP模型家族的总共51个预训练Transformer进行了分析,包括GPT2、BERT等;
- 考察了28个现有和新颖的泛化度量标准,并发现从“heavy-tail”(HT)角度得出的度量标准在NLP任务中表现出更强的相关性;
- 为了更深入地研究这些度量标准,作者扩展了之前基于幂律(power law)频谱分布的公式,引入了指数(exponential)和指数截尾幂律(exponentially-truncated power law,E-TPL)家族。
【重尾现象:当一个概率分布被认为是"heavy-tailed"时,意味着它的尾部包含了一些极端事件或异常值,这些事件的概率远高于正态分布(正态分布的尾部事件概率迅速减小),可以用幂律来进行描述】
1 Introduction
- 泛化指标对于模型选择非常重要,而近年有研究指出现有指标的不足之处:
- 对于环境超参(数据、网络架构、训练策略)的改变缺乏鲁棒性;
- Simpson悖论:当应用于学习模型集合或整体研究的每个子部分时,泛化指标的表现不同;
- 过于依赖CV模型,难以泛化到其他任务(例如NLP)。
- 相较于CV任务,NLP任务的泛化指标选择需要注意什么:
- 大语
NLP模型选择:重尾度量与测试误差的关联研究

本文研究了在NLP任务中选择模型参数和训练超参的重要性,特别关注直接预测测试误差而非泛化差距。通过分析大量Transformer模型,发现重尾(HT)相关的度量标准在NLP中更具相关性。文章扩展了HT-SR理论,提出指数截尾幂律(E-TPL)作为预测模型质量的有效工具,尤其是在次优训练模型上。
最低0.47元/天 解锁文章
1831

被折叠的 条评论
为什么被折叠?



