为什么要评估测试 (Evaluation Testing)
随着大模型技术的推进,评测其性能和能力的需求也日益增长,这不仅仅是技术层面的需求,更关系到商业决策和公众认知。 为什么需要大模型评估测试?主要原因如下;
- 模型好坏的统一判断标准:如果不构建一个客观公正和定量的模型评测体系,则无法判断众多大模型之间的能力高低,用户无法了解模型的真实能力和实际效果。
- 模型迭代优化的依据:对于开发者而言,如果不能定量评估模型的能力,则无法跟踪模型能力的变化,无法知道模型的优势和劣势,从而无法有针对的指定模型提升策略,影响模型的迭代升级。
- 监管安全的要求考虑:对于法律、医疗等关乎社会安全的领域,需要对大模型进行系统的评测,以确认大模型适合在该领域进行使用,而不会造成安全事故。
- 领域基础模型的选择依据:在不同的领域下,大模型的能力表现各有优劣,需要引入评测体系对大模型在各个领域下的能力进行统一测试,选择出最适合该特定领域的大模型作为基座,从而更好的产业落地。
大模型的评估标准是什么
大模型的评估需要一套标准,所有按照一套标准进行评估,比较才会有公平性,就以 SuperCLUE 为例。
SuperCLUE 是一个综合性大模型评测基准,评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent 智能体和安全性,进而细化为 12 项基础能力。
评估基准
多维度的评测方案
根据评测我们可以从大范围内选择适合我们的模型,在此基础上我们可能对模型进行微调等,在微调后我们就需要对微调的模型,使用一些测试数据,对模型进行评估测试。
Spring AI 框架如何支持评估测试
Spring AI 主要测试 AI 应用程序需要评估生成的内容,以确保 AI 模型没有产生幻觉反应。
第一种方式:使用 AI 自身评估
用于评估响应的 Spring AI 接口定义为 Evaluator
:
@FunctionalInterface
public interface Evaluator {
EvaluationResponse evaluate(EvaluationRequest evaluationRequest)
}
评估的输入 EvaluationRequest
定义为
public class EvaluationRequest {
private final String userText;
private final List<Content> dataList;
private final String responseContent;
public EvaluationRequest(String userText, List<Content> dataList, String responseContent) {
this.userText = userText;
this.dataList = dataList;
this.responseContent = responseContent;
}
...
}
- userText: 用户的输入文本
- dataList: 附加到原始输入的上下文数据
- reponseContent: AI 模型的响应内容
第二种方式:RelevancyEvaluator
它使用 AI 模型进行评估。未来版本中将提供更多实现。 RelevancyEvaluator
使用输入 ( userText
) 和 AI 模型的输出 ( chatResponse
) 来提出问题:
Your task is to evaluate if the response for the query is in line with the context information provided.\n
You have two options to answer. Either YES/ NO.\n Answer - YES, if the response for the query is in line with context information otherwise NO.\n
Query: \n {query}\n
Response: \n {response}\n
Context: \n {context}\n
Answer: "
例如:该测试对加载到 Vector Store 中的 PDF 文档执行 RAG 查询,然后评估响应是否与用户文本相关。
@Test
void testEvaluation() {
dataController.delete();
dataController.load();
// 用户的提问
String userText = "What is the purpose of Carina?";
// 大模型影响
String responseContent = ChatClient.builder(chatModel)
.build().prompt()
.advisors(new QuestionAnswerAdvisor(vectorStore, SearchRequest.defaults()))
.user(userText)
.call()
.content();
// 定义一个相关性评估器
var relevancyEvaluator = new RelevancyEvaluator(ChatClient.builder(chatModel));
// 将 用户提问 + 模型的响应,一并发给大模型进行评估
EvaluationRequest evaluationRequest = new EvaluationRequest(userText,
(List<Content>) response.getMetadata().get(QuestionAnswerAdvisor.RETRIEVED_DOCUMENTS), responseContent);
// 返回评估结果
EvaluationResponse evaluationResponse = relevancyEvaluator.evaluate(evaluationRequest);
// 断言是否大模型是否满足性能需求
assertTrue(evaluationResponse.isPass(), "Response is not relevant to the question");
}
总结
大模型的评估也是相当重要的,是用好大模型的关键步骤。就像测试一样保障程序尽量少出 bug。这个也是一个值得研究的专题,后续也会持续研究,并实践。本文也仅是做一个引入并记录一下。