Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories

本文是LLM系列文章,针对《SMALLTOLARGE (S2L): Scalable Data Selection for Fine-tuning Large Language Models by Summarizing Training Trajectories of Small Models》的翻译。

SMALLTOLARGE(S2L):通过总结小模型的训练轨迹来微调大语言模型的可扩展数据选择

摘要

尽管在预训练和指令微调阶段,大型语言模型(LLM)的数据选择是有效的,但由于微调数据的复杂性,在专业领域的监督微调(SFT)中提高数据效率带来了重大挑战。为了弥补这一差距,我们为SFT引入了一种有效且可扩展的数据选择方法SMALLTOLARGE(S2L),该方法利用小模型的训练轨迹来指导大模型的数据选择。我们通过大量实验证明,S2L显著提高了SFT中用于数学问题解决的数据效率,将训练数据减少到原始MathInstruction数据集的11%,以匹配完整的数据集性能,同时在6个域内和域外评估数据集中平均比最先进的数据选择算法高4.7%。值得注意的是,仅选择50K数据进行SFT,S2L在具有挑战性的MATH基准上实现了32.7%的准确率,将Phi-2提高了16.6%。在MIMIC-III数据集的临床文本摘要中,S2L再次优于仅使用50%数据的完整数据集上的训练。值得注意的是,S2L可以使用比目标模型小40倍的参考模型来执行数据选择,从而成比例地降低了数据选择的成本。

1 引言

2 相关工作

3 问题定义

4 方法

5 实验

6 结论和局限性

在这项工作中,我们引入了SMALLTOLARGE(S2L),这是一种可扩展的数据选择方法,用于提高专业领域中大型语言模型(LLM)的监督微调(SFT)的数据效率。通过在较小的模型上基于数据点的训练动态对数据点进行聚类,

《Primitive-Swarm: An Ultra-lightweight and Scalable Planner for Large-scale Aerial Swarms》是一篇研究论文,提出了一种用于大规模空中蜂群的超轻量级、可扩展的路径规划算法。该方法通过使用预定义的运动基元(motion primitives)来实现高效协同规划,在计算效率和通信开销之间取得了良好平衡。 核心思想包括: 1. **运动基元(Motion Primitives)**:将无人机的运动限制在一组预先定义好的动作集合中,如直线飞行、转弯等,从而减少在线计算复杂度。 2. **分布式规划**:每个无人机基于局部信息进行决策,减少了对全局信息的依赖,提升了系统的可扩展性。 3. **冲突避免机制**:采用高效的避障策略确保大规模蜂群在密集环境中的安全飞行。 4. **适用于大规模部署**:相比传统方法,Primitive-Swarm在计算资源消耗和通信需求方面显著降低,适合成百上千架无人机的协同任务。 该方法在仿真和实际实验中都展示了良好的性能表现,尤其是在动态环境中实现高密度、无冲突的群体飞行。 --- ```python # 示例伪代码框架(非真实实现) class PrimitiveSwarmPlanner: def __init__(self, drone_num, env_map): self.drone_num = drone_num self.env_map = env_map self.motion_primitives = self.load_motion_primitives() def load_motion_primitives(self): # 加载预定义的运动基元 return ["straight", "left_turn", "right_turn", "hover"] def plan(self, goals): paths = [] for i in range(self.drone_num): # 每个无人机根据局部信息选择最优基元 path = self.select_best_primitive(goal=goals[i]) paths.append(path) return paths def select_best_primitive(self, goal): # 简化逻辑:选择最短路径且不冲突的基元 return min(self.motion_primitives, key=lambda p: self.evaluate(p, goal)) ``` ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值