21、大语言模型(LLM)的性能监控、定制与应用实践

大语言模型(LLM)的性能监控、定制与应用实践

1. LLM 性能监控与评估

监控和衡量大语言模型(LLM)的性能颇具挑战性,因为生成的文本具有不确定性,且模型基于庞大的训练数据集。不过,仍有一些近似方法可用于衡量漂移情况,例如:
- 比较参考数据与当前请求之间的嵌入相似度。
- 测量词汇频率和困惑度等。

检测模型是否产生幻觉是关键挑战。以下是几种检测方法:
- 多结果比较法 :针对同一问题比较多个结果,若语义不同,则模型很可能产生了幻觉。
- RAG 系统相似度评估法 :评估参考数据与生成文本答案之间的相似度,可参考 BERTScore 和 Vectara。
- ROUGE 评估法 :文本摘要应用可使用 ROUGE(Recall - Oriented Understudy for Gisting Evaluation)方法评估结果。
- LLM 评判法 :使用 LLM 作为评判者,根据参考内容(在 RAG 中)或另一个 LLM 评估答案的正确性。

添加用户反馈(人工介入)也是确保高质量和可靠性的重要因素。具体做法是对生产数据中的结果进行抽样,由人工验证是否符合预期行为。若不符合,则进行纠正,并重新训练或调整模型。

2. MLOps 管道助力 LLM 定制与使用

为特定数据和应用定制 LLM 有两种方法:提示工程和微调。在许多应用中,会同时使用这两种方法以提升性能和可靠性。数据准备和验证在这两种方法中都是关键环节。

根据原作 https://pan.quark.cn/s/0ed355622f0f 的源码改编 野火IM解决方案 野火IM是专业级即时通讯和实时音视频整体解决方案,由北京野火无限网络科技有限公司维护和支持。 主要特性有:私有部署安全可靠,性能强大,功能齐全,全平台支持,开源率高,部署运维简单,二次开发友好,方便第三方系统对接或者嵌入现有系统中。 详细情况请参考在线文档。 主要包括一下项目: 野火IM Vue Electron Demo,演示如何将野火IM的能力集成到Vue Electron项目。 前置说明 本项目所使用的是需要付费的,价格请参考费用详情 支持试用,具体请看试用说明 本项目默认只能连接到官方服务,购买或申请试用之后,替换,即可连到自行部署的服务 分支说明 :基于开发,是未来的开发重心 :基于开发,进入维护模式,不再开发新功能,鉴于已经终止支持且不再维护,建议客户升级到版本 环境依赖 mac系统 最新版本的Xcode nodejs v18.19.0 npm v10.2.3 python 2.7.x git npm install -g node-gyp@8.3.0 windows系统 nodejs v18.19.0 python 2.7.x git npm 6.14.15 npm install --global --vs2019 --production windows-build-tools 本步安装windows开发环境的安装内容较多,如果网络情况不好可能需要等较长时间,选择早上网络较好时安装是个好的选择 或参考手动安装 windows-build-tools进行安装 npm install -g node-gyp@8.3.0 linux系统 nodej...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值