Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

在这里插入图片描述

文章主要内容总结

本文针对大型语言模型(LLMs)在调用企业API时存在的工具歧义识别困难、参数缺失处理能力不足等问题,提出了一个以消歧为核心的三阶段框架DIAFORGE(Dialogue Framework for Organic Response Generation & Evaluation)。该框架包括:

  1. 合成对话生成:通过多智能体引擎UTC-GEN生成基于角色的多轮对话,聚焦于相似工具的区分和缺失参数的获取;
  2. 监督微调:利用包含推理轨迹的数据对3B–70B参数的开源模型进行微调;
  3. 动态评估:通过动态基准测试DIABENCH,在实时代理循环中评估模型的端到端目标完成度,并结合静态指标综合判断其实用性。

实验结果显示,经DIAFORGE训练的模型在工具调用成功率上显著优于GPT-4o(提升27个百分点)和Claude3.5-Sonnet(提升49个百分点)。此外,作者还公开了包含约5,000个企业级API规范及消歧对话的数据集,为构建可靠的企业级工具调用代理提供了实践蓝图。

创新点

  1. 消歧驱动的合成数据生成:通过多智能体模拟生成聚焦于相似工具区分和参数补全的多轮对话,针对性解决LLMs在
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值