来源:HsuDan
TÜLU 3:首个发布后训练配方的开源模型,性能超越Llama3.1
- 论文地址:https://arxiv.org/abs/2411.15124
- 模型下载:https://hf.co/allenai/Llama-3.1-Tulu-3-70B
- 代码地址:https://github.com/allenai/open-instruct
- Demo地址:https://playground.allenai.org/
与普遍认知不同,基础语言模型在预训练后并不能直接投入使用。事实上,后训练过程才是决定模型最终价值的关键环节。正是在这个阶段,模型从一个"无所不知"却缺乏判断力的网络,转变为具有特定功能导向的实用工具。
最近,来自艾伦人工智能研究所和华盛顿大学的研究团队推出了 TÜLU 3,一个完全开放的 SOTA 后训练模型系列,以及它的数据、代码和训练方法,作为现代后训练技术的综合指南。
TÜLU 3 设计用于在多样化任务上实现最先进的性能,除了聊天之外,还包括 MATH、GSM8K 和 IFEval。模型开源8B、70B两个版本。
图1. TÜLU 3整体流程
TÜLU 3 的这套完整的后训练方案涵盖了从主题选择到数据治理,从强化学习到微调等全方位流程。用户可以根据需求调整模型能力,比如强化数学和编程能力,或降低多语言处理优先级。
主要有四个步骤:
- 构建多样,高质量的Prompt
- 有监督微调
- 偏好优化
- 强化学习
TÜLU 3 建立在 Llama 3.1 基础模型之上,其结果超过了 Llama 3.1、Qwen 2.5、Mistral 的 instruct 版本,甚至超过了 GPT-4o-mini 和 Claude 3.5-Haiku 等闭源模型。他们模型的训练算法包括监督微调(SFT)、直接偏好优化(DPO)和可验证奖励强化学习(RLVR)。
欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。
