TÜLU 3：首个发布后训练配方的开源模型，性能超越Llama3.1

快乐小码农

已于 2024-11-28 17:36:03 修改

阅读量621

点赞数 5

分类专栏：开源大模型 AI 文章标签：开源大模型 LLM 多模态大模型

于 2024-11-28 16:30:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u012744245/article/details/144114334

版权

AI 同时被 2 个专栏收录

59 篇文章

订阅专栏

开源大模型

57 篇文章

订阅专栏

来源：HsuDan

TÜLU 3：首个发布后训练配方的开源模型，性能超越Llama3.1

在这里插入图片描述

论文地址：https://arxiv.org/abs/2411.15124
模型下载：https://hf.co/allenai/Llama-3.1-Tulu-3-70B
代码地址：https://github.com/allenai/open-instruct
Demo地址：https://playground.allenai.org/

与普遍认知不同，基础语言模型在预训练后并不能直接投入使用。事实上，后训练过程才是决定模型最终价值的关键环节。正是在这个阶段，模型从一个"无所不知"却缺乏判断力的网络，转变为具有特定功能导向的实用工具。

最近，来自艾伦人工智能研究所和华盛顿大学的研究团队推出了 TÜLU 3，一个完全开放的 SOTA 后训练模型系列，以及它的数据、代码和训练方法，作为现代后训练技术的综合指南。

TÜLU 3 设计用于在多样化任务上实现最先进的性能，除了聊天之外，还包括 MATH、GSM8K 和 IFEval。模型开源8B、70B两个版本。

在这里插入图片描述

图1. TÜLU 3整体流程

TÜLU 3 的这套完整的后训练方案涵盖了从主题选择到数据治理，从强化学习到微调等全方位流程。用户可以根据需求调整模型能力，比如强化数学和编程能力，或降低多语言处理优先级。

主要有四个步骤:

构建多样，高质量的Prompt
有监督微调
偏好优化
强化学习

TÜLU 3 建立在 Llama 3.1 基础模型之上，其结果超过了 Llama 3.1、Qwen 2.5、Mistral 的 instruct 版本，甚至超过了 GPT-4o-mini 和 Claude 3.5-Haiku 等闭源模型。他们模型的训练算法包括监督微调（SFT）、直接偏好优化（DPO）和可验证奖励强化学习（RLVR）。

在这里插入图片描述

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。