ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models

摘要

随着大语言模型(LLMs)在电子商务等领域的应用日益广泛,特定领域的概念评估基准对于评估其领域能力至关重要。在复杂的电子商务应用中,现有的大语言模型可能会生成与事实不符的信息。因此,有必要构建一个电子商务概念基准。现有基准面临两个主要挑战:(1)处理任务的异构性和多样性;(2)区分电子商务领域内的通用性和特殊性。为了解决这些问题,我们提出了ChineseEcomQA,这是一个可扩展的问答基准,专注于基础电子商务概念。ChineseEcomQA基于三个核心特征构建:关注基础概念、电子商务通用性和电子商务专业性。基础概念旨在适用于各种不同的电子商务任务,从而解决异构性和多样性的挑战。此外,通过仔细平衡通用性和特殊性,ChineseEcomQA能够有效区分广泛的电子商务概念,实现对领域能力的精确验证。我们通过一个可扩展的基准构建过程来实现这一点,该过程结合了大语言模型验证、检索增强生成(RAG)验证和严格的人工标注。基于ChineseEcomQA,我们对主流大语言模型进行了广泛的评估,并提供了一些有价值的见解。我们希望ChineseEcomQA能够指导未来的特定领域评估,并促进大语言模型在电子商务应用中的更广泛采用。

引言

近年来,大语言模型(LLMs)取得了快速发展&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值