摘要
随着大语言模型(LLMs)在电子商务等领域的应用日益广泛,特定领域的概念评估基准对于评估其领域能力至关重要。在复杂的电子商务应用中,现有的大语言模型可能会生成与事实不符的信息。因此,有必要构建一个电子商务概念基准。现有基准面临两个主要挑战:(1)处理任务的异构性和多样性;(2)区分电子商务领域内的通用性和特殊性。为了解决这些问题,我们提出了ChineseEcomQA,这是一个可扩展的问答基准,专注于基础电子商务概念。ChineseEcomQA基于三个核心特征构建:关注基础概念、电子商务通用性和电子商务专业性。基础概念旨在适用于各种不同的电子商务任务,从而解决异构性和多样性的挑战。此外,通过仔细平衡通用性和特殊性,ChineseEcomQA能够有效区分广泛的电子商务概念,实现对领域能力的精确验证。我们通过一个可扩展的基准构建过程来实现这一点,该过程结合了大语言模型验证、检索增强生成(RAG)验证和严格的人工标注。基于ChineseEcomQA,我们对主流大语言模型进行了广泛的评估,并提供了一些有价值的见解。我们希望ChineseEcomQA能够指导未来的特定领域评估,并促进大语言模型在电子商务应用中的更广泛采用。
引言
近年来,大语言模型(LLMs)取得了快速发展&