【LLM】【大模型测试工程】geval-main LLM模型测试和评估(2)

4.开源大语言模型评估

prompt的编写的好坏,直接会影响到模型回复的质量

text-generation-webui

使用方法:下载对应的模型到测试服务器。

  • 注意:记得上服务器查看prompt的输出日志是否和设定的prompt一致,避免由于加载方式不同,导致prompt不是预设的内容,影响模型质量输出

已选定的backup开源模型:

大语言模型API接口

使用方法:根据官网http api文档编写对应的脚本,可以参见aliyun_qwen, mistral, minmax 这三个模型的脚本,都是调用官方api 接口的方式来进行评测的。

prompt文件

【写的更好】竞品Janitor AI prompt:prompts/ai_character_prompts/janitorai

问题排查

  • 模型结果输出xxx.json中记录了模型的输出id,可以拿着对应的id 去服务器上搜索日志, 方便定位问题。主要检测参数,prompt,以及上下文聊天记录

5.竞品测试

有些竞品可以抓取到角色的prompt设定,可以在报告里面提交上,以便产研团队借鉴

调用竞品接口进行测试

SpicyChat AI 竞品测试

执行脚本:script/competitive_product_testing/spicychat_ai.py

官网地址https://spicychat.ai/

使用方法:

可以使用request 调用接口去请求, 需要先手工的访问PC/手机浏览器,登录选定角色,手工在界面上聊一轮获取到conversation_id,

抓取对应的curl,在替换掉对应的参数 data,然后调用接口发送聊天

脚本跑完以后,SpicyChat AI 对应的角色可以看到所有接口跑的聊天内容

查看结果:

直接登录SpicyChat 的账号在web 查看,对应的角色有相关的聊天记录(web必须支持同一个角色创建多个新的聊天对话才可以),使用浏览器的英文翻译成中文。

将整个网页保存到本地,本地可以查看,使用浏览器的英文翻译成中文,可以保留历史记录(有些竞品网页保存到本地以后,页面css效果丢失查看不方便,eg:Janitor AI )

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值