本文是LLM系列文章,针对《An Empirical Study on Large Language Models in Accuracy and
Robustness under Chinese Industrial Scenarios》的翻译。
摘要
近年来,大型语言模型在各个领域得到了快速发展。为了更好地服务于大量的中国用户,中国的许多商业供应商都采取了本地化策略,训练并提供专门为中国用户定制的本地LLM。此外,展望未来,LLM的关键未来应用之一将是这些部门的企业和用户在工业生产中的实际部署。然而,LLM在工业场景中的准确性和稳健性尚未得到很好的研究。在本文中,我们对中国工业生产区背景下LLM的准确性和稳健性进行了全面的实证研究。我们手动收集了来自8个不同工业部门的1200个领域特定问题,以评估LLM的准确性。此外,我们设计了一个变质测试框架,包含四个具有八种能力的工业特定稳定性类别,共有13631个问题和变体,以评估LLM的稳健性。我们总共评估了中国供应商开发的9种不同的LLM,以及全球供应商开发的4种不同的LLM。我们的主要发现包括:(1)当前的LLM在中国工业环境中表现出较低的准确性,所有LLM的得分都低于0.6。全球LLM擅长推理和开放式任务,优于更善于理解中文术语的本地LLM。(2) 工业部门的稳健性得分各不相同,地方LLM的总体表现不如全球LLM。(3) LLM的稳健性因能力而异。全局LLM在与逻辑相关的变体下更稳健,而高级局部LLM在理解中国工业术语的相关问题上表现更好。我们的研究结果为从发展和工业企业的角度理解和提升LLM的工业领域能力提供了宝贵的指导。研究结果进一步激发了可能的研究方向和工具支持。

本文对中国工业环境中大型语言模型(LLM)的准确性和稳健性进行了全面研究。通过收集8个工业部门的1200个问题评估其准确性,设计的变质测试框架包含13631个问题和变体测试其稳健性。研究发现,当前LLM在工业环境中的准确性不足,全球LLM在推理和开放任务上表现优于本地LLM,而本地LLM在理解中文术语方面更优。此外,LLM的稳健性在不同能力方面存在差异,且工业部门间表现不一。
订阅专栏 解锁全文
438

被折叠的 条评论
为什么被折叠?



