2024_NIPS_What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions

在这里插入图片描述

一、文章主要内容总结

本文聚焦大语言模型(LLMs)训练数据的价值评估问题,核心解决现有数据评估方法在LLM场景下计算和内存成本过高的痛点。通过改进基于梯度的影响函数(influence functions),提出低秩梯度投影算法LOGRA和开源软件LOGIX,实现了高效、可扩展的数据价值评估。实验验证了该方案在准确性与效率上的优势,可支持十亿级参数模型和万亿级token数据集的评估,为数据提供者的信用认定与补偿提供技术支撑。

二、核心创新点

  1. LOGRA算法:利用反向传播中的梯度结构,设计低秩梯度投影策略,将梯度投影的时空复杂度从(O(nk))降至(O(\sqrt{nk})),无需生成完整梯度即可直接计算投影梯度,大幅降低GPU内存占用并提升利用率。
  2. 理论支撑:将影响函数中的阻尼项解释为谱梯度稀疏化机制,为梯度投影方法提供理论依据,并推导了基于PCA的LOGRA初始化方案。
  3. LOGIX软件:兼容LLM生态中的主流工具(如DeepSpeed、HF Transformers),仅需少量代码修改即可将现有训练代码转化为数据评估代码,支持自定义扩展。
  4. 高效扩展性:在Llama3-8B-Instruct等模型上验证,相比现有基线EKFAC influ
### 论文难度排序分析 对于深度学习领域中的论文,其阅读和理解的难度通常取决于以下几个因素: 1. **理论复杂度**:涉及的基础数学工具、算法设计以及推导过程越复杂,论文的理解门槛越高。 2. **创新程度**:如果一篇论文提出了全新的架构或方法,则需要读者对该领域的背景有较深了解才能快速掌握核心思想。 3. **跨学科特性**:当研究工作融合多个子领域(如神经科学与计算机视觉),则可能增加额外的学习成本。 以下是基于上述标准对所列论文按从易到难顺序排列的结果及其理由说明: #### 排序结果 1. **CVPR25.Transformer without Normalization** 这篇论文主要探讨移除标准化操作的影响并给出解决方案,在现有框架上做改进而非完全重构新模型,因此相对容易入门[^4]。 2. **NIPS2023.Spike-Driven-Transformer** 虽然引入脉冲机制增加了认知负担,但由于这是早期版本的工作,概念较为基础简单,适合初学者作为进入SNN方向的第一步材料之一[^2]。 3. **ICLR2024.Spike-driven Transformer V2** 它是在前者基础上进一步发展完善而成的作品;相比起原始版来说新增了一些高级技巧比如更高效的训练策略等,所以稍显困难一些. 4. **TPAMI25.Scaling Spike-driven Transformer with Efficient Spike Firing Approximation Training** 结合了大规模扩展性和近似计算这两个难点话题,并且涉及到复杂的优化流程和技术细节处理方面的要求较高,属于高阶读物范畴[^1]. 5. **MetaLA_Unified Optimal Linear Approximation to Softmax Attention Map (NIPS2024 Oral)** 提出了统一最优线性逼近软最大注意图的方法论体系,不仅包含了深刻的理论洞察还具备很强的实际应用价值,同时由于是口头报告级别成果意味着质量极高同时也更具挑战性[^3]. 6. **SpectFormer_Frequency and Attention is what you need in a ViT__Fourier Backbone_(2304.)** 将频域变换融入注意力机制当中形成独特视角下的新型骨干网络结构——谱前向器(Spectrum Former),这既是对传统ViTs的一次大胆革新尝试也是多维度思考能力锻炼的好机会,无疑是最具技术含量也最难啃硬骨头级别的存在. ```python papers_difficulty_order = [ "CVPR25_Transformers_without_Normalization", "NIPS2023_Spike_Driven_Transformer", "ICLR2024_Spike_driven_Transformer_V2", "TPAMI25_Scaling_Spike_driven_Transformer_with_Efficient_Spike_Firing_Approximation_Training", "NIPS2024_Oral_MetaLA_Unified_Optimal_Linear_Approximation_to_Softmax_Attention_Map", "SpectFormer_Frequency_and_Attention_is_what_you_need_in_a_ViT__Fourier_Backbone" ] ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值