来源 | 机器之心
现阶段,微调大型语言模型(LLMs)的难点在于,人们通常没有高质量的标注数据。
最近,AI 公司 Databricks 推出了一种新的调优方法 TAO,只需要输入数据,无需标注数据即可完成。更令人惊喜的是,TAO 在性能上甚至超过了基于标注数据的监督微调。

众所周知,LLM 很难适应新的企业级任务。提示(prompting)的方式容易出错,且质量提升有限,而微调(fine-tuning)则需要大量的标注数据,而这些数据在大多数企业任务中是不可用的。
Databricks 提出的模型调优方法,只需要未标注数据,企业就可以利用现有的数据来提升 AI 的质量并降低成本。
TAO(全称 Test-time Adaptive Optimization)利用测试时计算(由 o1 和 R1 推广)和强化学习(RL)算法,仅基于过去的输入示例来教导模型更好地完成任务。
至关重要的是,尽管 TAO 使用了测试时计算,但它将其作为训练模型过程的一部分;然后,该模型以较低的推理成本(即在推理时不需要额外的计算)直接执行任务。
更令人惊讶的是,即使没有标注数据,TAO 也能实现比传统调优模型更好的质量,并且它可以将像 Llama 这样的开源模型提升到与专有模型(如 GPT-4o 和 o3-mini)相当的质量水平。
借助 TAO,Databricks 已经取得了三项突破性成果:
-
在文档问答和 SQL 生成等专业企业任务中,TAO 的表现优于需要数千标注样本的传统微调方法。它让 Llama 8B/70B 等高效开源模型达到了 GPT-4o/o3-min

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



