使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心

MongoDB 数据平台

于 2024-09-05 16:21:17 发布

阅读量1.1w

点赞数 11

CC 4.0 BY-SA版权

分类专栏： AI应用客户案例文章标签：人工智能 mongodb

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/MongoDBChina/article/details/141933594

在这里插入图片描述
大语言模型可能不可靠，这几乎算不上头条新闻。对于某些用例，这可能会带来不便。而对于其他行业，尤其是受监管行业，后果则要严重得多。于是，业内首个大语言模型自动评估平台 Patronus AI 应运而生。

Patronus AI 由 Meta AI 和 Meta Reality Labs 的机器学习专家创立，旨在增强企业对生成式 AI 应用程序的信心，在塑造值得信赖的 AI 生态方面处于领先地位。

Patronus 联合创始人兼首席技术官 Rebecca Qian 解释道：“我们的平台支持工程师在真实场景中对 LLM 性能进行评分和基准测试，生成对抗性测试用例，监控幻觉并检测 PII 及其他意外和不安全的行为。客户使用 Patronus AI 大规模检测 LLM 错误，从而安全、自信地部署 AI 产品。”

在这里插入图片描述

在最近发表并被广泛引用的基于 FinanceBench 问答 (QA) 评估套件研究中，Patronus 有了一个惊人的发现。研究人员发现，许多广泛使用的先进 LLM 经常出现幻觉，错误回答或拒绝回答金融分析师问题的比例高达 81%！ 尽管模型的上下文窗口已通过从外部向量存储中检索到的上下文得到了增强，但错误率仍然如此之高。

检索增强生成 (RAG) 是为模型提

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。