4.开源大语言模型评估
prompt的编写的好坏,直接会影响到模型回复的质量
text-generation-webui
使用方法:下载对应的模型到测试服务器。
-
注意:记得上服务器查看prompt的输出日志是否和设定的prompt一致,避免由于加载方式不同,导致prompt不是预设的内容,影响模型质量输出
已选定的backup开源模型:
-
阿里云_通义千问(质量回复效果最好,2024-03-26评测完成)
-
openchat/openchat_3.5 (2023-12-24日评测完成)
-
TheBloke/Yi-34B-Chat-GPTQ (2024-01-02日评测完成)
大语言模型API接口
使用方法:根据官网http api文档编写对应的脚本,可以参见aliyun_qwen, mistral, minmax 这三个模型的脚本,都是调用官方api 接口的方式来进行评测的。
prompt文件
【写的更好】竞品Janitor AI prompt:prompts/ai_character_prompts/janitorai
问题排查
-
模型结果输出xxx.json中记录了模型的输出id,可以拿着对应的id 去服务器上搜索日志, 方便定位问题。主要检测参数,prompt,以及上下文聊天记录
5.竞品测试
有些竞品可以抓取到角色的prompt设定,可以在报告里面提交上,以便产研团队借鉴
调用竞品接口进行测试
SpicyChat AI 竞品测试
执行脚本:script/competitive_product_testing/spicychat_ai.py
官网地址:https://spicychat.ai/
使用方法:
可以使用request 调用接口去请求, 需要先手工的访问PC/手机浏览器,登录选定角色,手工在界面上聊一轮获取到conversation_id,
抓取对应的curl,在替换掉对应的参数 data,然后调用接口发送聊天
脚本跑完以后,SpicyChat AI 对应的角色可以看到所有接口跑的聊天内容
查看结果:
直接登录SpicyChat 的账号在web 查看,对应的角色有相关的聊天记录(web必须支持同一个角色创建多个新的聊天对话才可以),使用浏览器的英文翻译成中文。
将整个网页保存到本地,本地可以查看,使用浏览器的英文翻译成中文,可以保留历史记录(有些竞品网页保存到本地以后,页面css效果丢失查看不方便,eg:Janitor AI )