An Empirical Study on Large Language Models in Accuracy and Robustness

828 篇文章

已下架不支持订阅

本文对中国工业环境中大型语言模型(LLM)的准确性和稳健性进行了全面研究。通过收集8个工业部门的1200个问题评估其准确性,设计的变质测试框架包含13631个问题和变体测试其稳健性。研究发现,当前LLM在工业环境中的准确性不足,全球LLM在推理和开放任务上表现优于本地LLM,而本地LLM在理解中文术语方面更优。此外,LLM的稳健性在不同能力方面存在差异,且工业部门间表现不一。

本文是LLM系列文章,针对《An Empirical Study on Large Language Models in Accuracy and
Robustness under Chinese Industrial Scenarios》的翻译。

中国工业情景下大型语言模型准确性和稳健性的实证研究

摘要

近年来,大型语言模型在各个领域得到了快速发展。为了更好地服务于大量的中国用户,中国的许多商业供应商都采取了本地化策略,训练并提供专门为中国用户定制的本地LLM。此外,展望未来,LLM的关键未来应用之一将是这些部门的企业和用户在工业生产中的实际部署。然而,LLM在工业场景中的准确性和稳健性尚未得到很好的研究。在本文中,我们对中国工业生产区背景下LLM的准确性和稳健性进行了全面的实证研究。我们手动收集了来自8个不同工业部门的1200个领域特定问题,以评估LLM的准确性。此外,我们设计了一个变质测试框架,包含四个具有八种能力的工业特定稳定性类别,共有13631个问题和变体,以评估LLM的稳健性。我们总共评估了中国供应商开发的9种不同的LLM,以及全球供应商开发的4种不同的LLM。我们的主要发现包括:(1)当前的LLM在中国工业环境中表现出较低的准确性,所有LLM的得分都低于0.6。全球LLM擅长推理和开放式任务,优于更善于理解中文术语的本地LLM。(2) 工业部门的稳健性得分各不相同,地方LLM的总体表现不如全球LLM。(3) LLM的稳健性因能力而异。全局LLM在与逻辑相关的变体下更稳健,而高级局部LLM在理解中国工业术语的相关问题上表现更好。我们的研究结果为从发展和工业企业的角度理解和提升LLM的工业领域能力提供了宝贵的指导。研究结果进一步激发了可能的研究方向和工具支持。

1 引言

2 工业数据收集

3 变形框架设计

4 实现和设置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值