14、大语言模型微调的推理可重复性分析

大语言模型微调的推理可重复性分析

1. 推理可重复性评估概述

推理可重复性评估通过可靠性分析来实现,该分析会剖析元参数及其与数据属性相互作用所产生的方差。此外,还能计算可靠性系数,以此作为可重复性的指标。

2. 大语言模型微调的推理可重复性

2.1 大语言模型的发展与模式

大语言模型(LLMs)在短短几年内引发了机器学习和数据科学领域的范式转变。因其具有可扩展性,能够在拥有数万亿参数、基于数万亿自然语言数据训练的模型中编码大量知识。商业LLMs(如GPT系列)以黑盒模式运行,使用非公开数据进行预训练,并通过API提供服务,模型提供商对模型拥有完全控制权,包括进行未公开的模型更改。若使用黑盒LLMs进行实验存在未知的不确定性来源,研究结果的可重复性问题就只能依赖商业提供商来解答。而开源研究LLMs(如BART、T5、LLaMA)则将数据和预训练模型公开,并开源代码基础。在此背景下,推理可重复性问题随之出现,例如在明确的算法层面和数据层面的不确定性因素下,对预训练模型进行微调所获得的研究结果的可重复性问题。

2.2 示例算法介绍

以https://paperswithcode.com 上的一个自然语言处理示例为例,即Aghajanyan等人(2021)提出的用于文本摘要任务的BART + R3F微调算法,使用ROUGE - 1/2/L指标在CNN/DailyMail和RedditTIFU数据集上进行评估。该算法在论文发表时被列为这些数据集上文本摘要任务的最优算法(SOTA)。基线模型采用预训练的BART - large模型。

2.3 BART + R3F算法原理

BAR

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值