大语言模型微调的推理可重复性分析
1. 推理可重复性评估概述
推理可重复性评估通过可靠性分析来实现,该分析会剖析元参数及其与数据属性相互作用所产生的方差。此外,还能计算可靠性系数,以此作为可重复性的指标。
2. 大语言模型微调的推理可重复性
2.1 大语言模型的发展与模式
大语言模型(LLMs)在短短几年内引发了机器学习和数据科学领域的范式转变。因其具有可扩展性,能够在拥有数万亿参数、基于数万亿自然语言数据训练的模型中编码大量知识。商业LLMs(如GPT系列)以黑盒模式运行,使用非公开数据进行预训练,并通过API提供服务,模型提供商对模型拥有完全控制权,包括进行未公开的模型更改。若使用黑盒LLMs进行实验存在未知的不确定性来源,研究结果的可重复性问题就只能依赖商业提供商来解答。而开源研究LLMs(如BART、T5、LLaMA)则将数据和预训练模型公开,并开源代码基础。在此背景下,推理可重复性问题随之出现,例如在明确的算法层面和数据层面的不确定性因素下,对预训练模型进行微调所获得的研究结果的可重复性问题。
2.2 示例算法介绍
以https://paperswithcode.com 上的一个自然语言处理示例为例,即Aghajanyan等人(2021)提出的用于文本摘要任务的BART + R3F微调算法,使用ROUGE - 1/2/L指标在CNN/DailyMail和RedditTIFU数据集上进行评估。该算法在论文发表时被列为这些数据集上文本摘要任务的最优算法(SOTA)。基线模型采用预训练的BART - large模型。
2.3 BART + R3F算法原理
BAR
超级会员免费看
订阅专栏 解锁全文
812

被折叠的 条评论
为什么被折叠?



