Multi-Objective Linguistic Control of Large Language Models

本文是LLM系列文章,针对《Multi-Objective Linguistic Control of Large Language Models》的翻译。

摘要

大型语言模型 (LLM) 尽管在许多具有挑战性的基准测试任务上取得了突破,但倾向于生成冗长的响应,并且缺乏输出复杂性的可控性,而这在实践中通常是人类用户的首选。在本文中,我们研究了如何通过使用现成数据进行微调来精确控制 LLM 输出的多种语言复杂性。为此,我们提出了多控制调优 (MCTune),其中包括真实响应的多个语言复杂度值作为指令调优输入中的控件。我们在 Alpaca-GPT4 和 WizardLM 数据集上微调 LLaMA27B。对广泛使用的基准的评估表明,我们的方法不仅大大提高了 LLM 的多复杂性可控性,而且还保留甚至提高了响应的质量,这是一个附带的好处。

1 引言

2 相关工作

3 微调 LLM 以实现语言可控性

4 语言可控性评价

5 实验

6 讨论和结论

在本文中,我们通过多目标控制调整推进了对 LLM 中语言复杂性的精确控制。我们的方法很简单,可以与现有的指令调整数据集无缝集成,而无需收集新的数据集。我们的训练目标同时优化了 LLM 遵循指示的能力及其可控性。通过我们的实验,我们发现采用这种双聚焦策略可以显著提高 LLM 的生成质量,超过了单

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值