Datawhale LLM-universe Task5

这节课是对LLM应用进行系统评估和优化
系统评估的主要流程如图
在这里插入图片描述
现在我们从头分析一下如何对LLM应用进行系统评估和优化
在这里插入图片描述
这里我用的是Zhipu的模型
量化评估 说白了就是对LLM的输出进行打分, 这里使用两个提示词得到不同的输出, 观察输出结果哪个更靠谱
在这里插入图片描述
下面这里自定义了一个评分公式, 可以对输出结果进行打分,后面的多维评估也是这个的延申
另外一种方法, 就是根据输出指定客观题, 再打分
在这里插入图片描述
另外一种比较靠谱的是计算答案的相似度,这里用NLTK的bleu
在这里插入图片描述
还有就是用靠谱的大模型做评估
第二部分就是针对badcase优化prompt,以提升模型的输出能力,我们可以自己定义badcase
为了避免大模型的幻觉, 我们可以让大模型附上信息来源
在这里插入图片描述
最后附上一个langchain的思维导图
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值