大模型生成内容的相关性及模型性能的评估方式探讨

为什么要评估测试 (Evaluation Testing)

随着大模型技术的推进,评测其性能和能力的需求也日益增长,这不仅仅是技术层面的需求,更关系到商业决策和公众认知。 为什么需要大模型评估测试?主要原因如下;

  • 模型好坏的统一判断标准:如果不构建一个客观公正和定量的模型评测体系,则无法判断众多大模型之间的能力高低,用户无法了解模型的真实能力和实际效果。
  • 模型迭代优化的依据:对于开发者而言,如果不能定量评估模型的能力,则无法跟踪模型能力的变化,无法知道模型的优势和劣势,从而无法有针对的指定模型提升策略,影响模型的迭代升级。
  • 监管安全的要求考虑:对于法律、医疗等关乎社会安全的领域,需要对大模型进行系统的评测,以确认大模型适合在该领域进行使用,而不会造成安全事故。
  • 领域基础模型的选择依据:在不同的领域下,大模型的能力表现各有优劣,需要引入评测体系对大模型在各个领域下的能力进行统一测试,选择出最适合该特定领域的大模型作为基座,从而更好的产业落地。

大模型的评估标准是什么

大模型的评估需要一套标准,所有按照一套标准进行评估,比较才会有公平性,就以 SuperCLUE 为例。

SuperCLUE 是一个综合性大模型评测基准,评测主要聚焦于大模型的四个能力象限,包括语言理解与生成、专业技能与知识、Agent 智能体和安全性,进而细化为 12 项基础能力。

评估基准

image.png

多维度的评测方案

image.png

根据评测我们可以从大范围内选择适合我们的模型,在此基础上我们可能对模型进行微调等,在微调后我们就需要对微调的模型,使用一些测试数据,对模型进行评估测试。

Spring AI 框架如何支持评估测试

Spring AI 主要测试 AI 应用程序需要评估生成的内容,以确保 AI 模型没有产生幻觉反应。

第一种方式:使用 AI 自身评估

用于评估响应的 Spring AI 接口定义为 Evaluator :

@FunctionalInterface
public interface Evaluator {
    EvaluationResponse evaluate(EvaluationRequest evaluationRequest)
}

评估的输入 EvaluationRequest 定义为

public class EvaluationRequest {

	private final String userText;

	private final List<Content> dataList;

	private final String responseContent;

	public EvaluationRequest(String userText, List<Content> dataList, String responseContent) {
		this.userText = userText;
		this.dataList = dataList;
		this.responseContent = responseContent;
	}

  ...
}
  • userText: 用户的输入文本
  • dataList: 附加到原始输入的上下文数据
  • reponseContent: AI 模型的响应内容

第二种方式:RelevancyEvaluator

它使用 AI 模型进行评估。未来版本中将提供更多实现。 RelevancyEvaluator 使用输入 ( userText ) 和 AI 模型的输出 ( chatResponse ) 来提出问题:

Your task is to evaluate if the response for the query is in line with the context information provided.\n 
You have two options to answer. Either YES/ NO.\n Answer - YES, if the response for the query is in line with context information otherwise NO.\n 
Query: \n {query}\n 
Response: \n {response}\n 
Context: \n {context}\n 
Answer: "

例如:该测试对加载到 Vector Store 中的 PDF 文档执行 RAG 查询,然后评估响应是否与用户文本相关。

@Test
void testEvaluation() {

    dataController.delete();
    dataController.load();
    // 用户的提问
    String userText = "What is the purpose of Carina?";
    // 大模型影响
    String responseContent = ChatClient.builder(chatModel)
            .build().prompt()
            .advisors(new QuestionAnswerAdvisor(vectorStore, SearchRequest.defaults()))
            .user(userText)
            .call()
            .content();
    // 定义一个相关性评估器
    var relevancyEvaluator = new RelevancyEvaluator(ChatClient.builder(chatModel));
    // 将 用户提问 + 模型的响应,一并发给大模型进行评估
    EvaluationRequest evaluationRequest = new EvaluationRequest(userText,
            (List<Content>) response.getMetadata().get(QuestionAnswerAdvisor.RETRIEVED_DOCUMENTS), responseContent);
    // 返回评估结果
    EvaluationResponse evaluationResponse = relevancyEvaluator.evaluate(evaluationRequest);
    // 断言是否大模型是否满足性能需求
    assertTrue(evaluationResponse.isPass(), "Response is not relevant to the question");

}

总结

大模型的评估也是相当重要的,是用好大模型的关键步骤。就像测试一样保障程序尽量少出 bug。这个也是一个值得研究的专题,后续也会持续研究,并实践。本文也仅是做一个引入并记录一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值