【LLM】【大模型测试工程】geval-main LLM模型测试和评估（2）

金同学_jin

于 2024-10-27 23:39:35 发布

阅读量1.3k

点赞数 16

文章标签：人工智能测试工具自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gogoboi_jin/article/details/143274414

版权

4.开源大语言模型评估

prompt的编写的好坏，直接会影响到模型回复的质量

text-generation-webui

使用方法：下载对应的模型到测试服务器。

注意：记得上服务器查看prompt的输出日志是否和设定的prompt一致，避免由于加载方式不同，导致prompt不是预设的内容，影响模型质量输出

已选定的backup开源模型：

阿里云_通义千问（质量回复效果最好，2024-03-26评测完成）
openchat/openchat_3.5 （2023-12-24日评测完成）
TheBloke/Yi-34B-Chat-GPTQ （2024-01-02日评测完成）

大语言模型API接口

使用方法：根据官网http api文档编写对应的脚本，可以参见aliyun_qwen， mistral, minmax 这三个模型的脚本，都是调用官方api 接口的方式来进行评测的。

prompt文件

【写的更好】竞品Janitor AI prompt：prompts/ai_character_prompts/janitorai

问题排查

模型结果输出xxx.json中记录了模型的输出id，可以拿着对应的id 去服务器上搜索日志，方便定位问题。主要检测参数，prompt，以及上下文聊天记录

5.竞品测试

有些竞品可以抓取到角色的prompt设定，可以在报告里面提交上，以便产研团队借鉴

调用竞品接口进行测试

SpicyChat AI 竞品测试

执行脚本：script/competitive_product_testing/spicychat_ai.py

官网地址：https://spicychat.ai/

使用方法：

可以使用request 调用接口去请求，需要先手工的访问PC/手机浏览器，登录选定角色，手工在界面上聊一轮获取到conversation_id，

抓取对应的curl，在替换掉对应的参数 data，然后调用接口发送聊天

脚本跑完以后，SpicyChat AI 对应的角色可以看到所有接口跑的聊天内容

查看结果：

直接登录SpicyChat 的账号在web 查看，对应的角色有相关的聊天记录（web必须支持同一个角色创建多个新的聊天对话才可以），使用浏览器的英文翻译成中文。

将整个网页保存到本地，本地可以查看，使用浏览器的英文翻译成中文，可以保留历史记录（有些竞品网页保存到本地以后，页面css效果丢失查看不方便，eg：Janitor AI ）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。