Revisiting Dynamic Evaluation: Online Adaptation for Large Language Models

本文探讨了在线微调大型语言模型参数(动态评估)的重要性,尤其是在面对数据分布变化时。研究发现,在线适应能提高预测性能,且权重上的记忆表现出了与神经科学中记忆概念的相似性。实验揭示了在线适应在特定情况下的优势,如小上下文窗口和小模型的计算效率。同时,重置权重策略可避免过度拟合,保持性能提升。未来研究方向包括提高在线学习效率和理解权重与激活记忆的区别。

本文是LLM系列文章,针对《Revisiting Dynamic Evaluation: Online Adaptation for Large Language Models》的翻译。

重新审视动态评估:大型语言模型的在线适应

摘要

我们考虑在测试时在线微调语言模型的参数的问题,也称为动态评估。虽然众所周知,这种方法提高了整体预测性能,特别是在考虑训练和评估数据之间的分布变化时,我们在这里强调的观点是,在线适应将参数转化为随时间变化的状态,并提供了一种上下文长度扩展形式,以权重表示记忆,更符合神经科学中记忆的概念。我们特别关注适应的速度(就样本效率而言)、对总体分布漂移的敏感性,以及执行梯度计算和参数更新的计算开销。我们的实证研究提供了在线适应何时特别有趣的见解。我们强调,通过在线自适应,上下文学习和微调之间的概念区别变得模糊:两者都是基于先前观察到的token来调节模型的方法。

1 引言

2 SGD在线适应的方法

3 实验设置

4 结论

在本文中,我们为LLM的在线适应(也称为动态评估)提供了一个新的视角。通过广泛的实验,我们表明,当一个模型面临显著的分布变化时,具有较小上下文窗口和/或较小模型的在线学习可以带来更好的计算性能Pareto前沿,这表明记忆在权重上优于与上下文内学习相关联的激活中的记忆。当模型在在线自适应阶段之前被微调到目标分布时,这种优势减少并最终消失。然而,我们观察到(就像动态评估的经典情况一样)在线学习总是能提高性能。此外,对于分布中的模型,具有较小上下文的在线学习(因此具有较小的内存需求)可以缩小与具有较大上下文的上下文内学习的差距。还值得注意的是,在线自适应所观察到的最佳结果采用了一种简单的策略,通过在在线自适应阶段开始时将权重重置为其值,来避免模型过度拟合局

当前提供的引用内容并未涉及论文《Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》的相关信息。因此无法基于已有引用完成对该论文的具体总结。 然而,可以提供一些关于该主题的一般性背景知识以及可能的研究方向: ### 论文概述 《Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings》主要探讨了文本到图像生成模型评估中的关键问题。具体而言,研究聚焦于以下几个方面: 1. **评价指标**:传统自动化的评价指标(如FID、CLIPScore等)是否能够充分反映生成图像的质量和多样性[^6]。 2. **提示工程**:不同的文本描述如何影响生成图像的效果及其质量评估[^7]。 3. **人类评分**:引入人类主观判断作为补充手段,验证自动化指标的有效性和局限性[^8]。 通过提出一种新的综合框架Gecko,作者试图建立更全面且可靠的评测体系来衡量文本转图片技术的进步程度。 以下是部分实现代码用于计算某些常见视觉相似度分数的例子: ```python from sklearn.metrics.pairwise import cosine_similarity def compute_clip_score(image_features, text_features): """ Computes CLIP Score between image features and corresponding text features. Parameters: image_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). text_features (numpy.ndarray): Array of shape (n_samples, n_dimensions). Returns: float: Average Cosine Similarity score across all samples. """ scores = [] for img_feat, txt_feat in zip(image_features, text_features): sim = cosine_similarity([img_feat], [txt_feat]) scores.append(sim.item()) avg_score = sum(scores)/len(scores) return avg_score ``` 此函数展示了如何利用余弦距离测量两张嵌入空间内的向量之间的接近程度。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值