TÜLU 3:首个发布后训练配方的开源模型,性能超越Llama3.1

来源:HsuDan

TÜLU 3:首个发布后训练配方的开源模型,性能超越Llama3.1

在这里插入图片描述

  • 论文地址:https://arxiv.org/abs/2411.15124
  • 模型下载:https://hf.co/allenai/Llama-3.1-Tulu-3-70B
  • 代码地址:https://github.com/allenai/open-instruct
  • Demo地址:https://playground.allenai.org/

与普遍认知不同,基础语言模型在预训练后并不能直接投入使用。事实上,后训练过程才是决定模型最终价值的关键环节。正是在这个阶段,模型从一个"无所不知"却缺乏判断力的网络,转变为具有特定功能导向的实用工具。

最近,来自艾伦人工智能研究所和华盛顿大学的研究团队推出了 TÜLU 3,一个完全开放的 SOTA 后训练模型系列,以及它的数据、代码和训练方法,作为现代后训练技术的综合指南。

TÜLU 3 设计用于在多样化任务上实现最先进的性能,除了聊天之外,还包括 MATH、GSM8K 和 IFEval。模型开源8B、70B两个版本。

在这里插入图片描述

图1. TÜLU 3整体流程

TÜLU 3 的这套完整的后训练方案涵盖了从主题选择到数据治理,从强化学习到微调等全方位流程。用户可以根据需求调整模型能力,比如强化数学和编程能力,或降低多语言处理优先级。

主要有四个步骤:

  1. 构建多样,高质量的Prompt
  2. 有监督微调
  3. 偏好优化
  4. 强化学习

TÜLU 3 建立在 Llama 3.1 基础模型之上,其结果超过了 Llama 3.1、Qwen 2.5、Mistral 的 instruct 版本,甚至超过了 GPT-4o-mini 和 Claude 3.5-Haiku 等闭源模型。他们模型的训练算法包括监督微调(SFT)、直接偏好优化(DPO)和可验证奖励强化学习(RLVR)。

在这里插入图片描述

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值