Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

一、文章主要内容总结

本文聚焦于评估大型语言模型(LLMs)对英国政府公共卫生信息的掌握情况,核心内容如下:

  1. 背景与目标
    • 随着LLMs的普及,其在公共卫生领域的信息准确性至关重要,但目前缺乏针对英国政府公共卫生指南的评估。
    • 开发新基准 PubHealthBench,包含超8000道多选题(MCQA)和开放式问答,用于评估LLMs对英国公共卫生指南的知识水平。
  2. 数据与方法
    • 数据集:从英国政府网站收集1150份公共卫生指南文件,处理为687份Markdown格式文档,涵盖10大主题和352个指导领域。
    • 基准生成:通过自动化流程生成MCQA问题,利用LLM分类、过滤无效问题,并引入人工审核确保质量。
    • 评估模型:测试24个LLMs(包括GPT-4.5、o1等),对比多选题和开放式回答的表现,同时设置人类基线(使用搜索引擎的非专家人类准确率88%)。
  3. 关键结果
    • 多选题表现:最新私有模型(如GPT-4.5、o1)准确率超90%,优于使用搜索引擎的人类基线,但存在约5.5%的模糊/无效问题。
    • 开放式回答:所有模型表现显著下降,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值