评测集社区 CompssHub 作为司南 OpenCompass 大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等 12 个方向的评测集,欢迎大家探索。
为了将评测集社区 CompssHub 收录的优秀评测集更好的展现给大家,11 月 14 日晚 19:00,由 OpenCampss 联合 OpenMMLab、 OpenDataLab、ModelScope 、MLNLP、Datawhale、Gitee AI 共同发起的 AI Spot 学术分享会 - ACL 评测基准专场成功举办,超过 1 万名观众在线观看了此次直播。
本期直播以“2024 ACL 评测基准专场”为主题,邀请了CHARM、SALAD-BENCH、MT-Bench-101的作者带来 ACL 2024 的最新学术成果分享。
错过了本期 AI Spot 直播?别担心,点击下方视频,查看精彩内容回放。
关注“司南评测体系”公众号,后台回复关键词“ACL 评测基准”,即可领取本期嘉宾演讲 PPT。
1. 武汉大学硕士 孙嘉星 《多模态中文常识推理基准-CHARM》
“我们构建了 CHARM,这是第一个用于全面和深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试,它涵盖了全球范围内通用的常识以及中国特色的常识。我们在 CHARM 上评估了 7 个英文和 12 个面向中文的 LLMs,采用了 5 种代表性的提示策略来提高 LLMs 的推理能力。”
论文链接
https://arxiv.org/abs/2403.14112
代码链接
https://github.com/opendatalab/CHARM
评测集社区 CompssHub
https://hub.opencompass.org.cn/dataset-detail/CHARM
2. 上海人工智能实验室青年研究员 李力骏《分享 SALAD-BENCH 数据集与评估方法》
“我们提出了 SALAD-Bench,这是一个专门为评估 LLM、攻击和防御方法而设计的安全基准。SALAD-Bench 通过其大规模、丰富的多样性、跨越三个级别的复杂分类法和多功能功能超越了传统基准。SALAD-Bench 精心设计了一系列问题,从标准查询到富含攻击、防御修改和多项选择的复杂问题。”
论文链接
https://arxiv.org/pdf/2402.05044
代码链接
https://github.com/OpenSafetyLab/SALAD-BENCH
评测集社区 CompssHub
https://hub.opencompass.org.cn/dataset-detail/SALAD-Bench
3. 阿里算法工程师 贺彦程《评估大语言模型多轮对话能力的细粒度评测集》
“我们提出了 MT-Bench-101, 专门用于评估 LLMs 在多轮对话中的细粒度能力。基于 MT-Bench-101 对 21 个流行的 LLMs 进行了评估,我们从能力和任务两个角度进行了全面分析,并观察到 LLMs 在不同任务中的对话轮次表现出不同的趋势。”
论文链接
https://aclanthology.org/2024.acl-long.401/
代码链接
评测集社区 CompssHub
https://hub.opencompass.org.cn/dataset-detail/MT-Bench-101
本次直播分享的评测基准都已上传至 OpenCampass 评测基准社区,这是一个面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。欢迎大家访问了解更多精彩内容。
社区地址:
https://hub.opencompass.org.cn/home
如果您也有ACL 或其他顶级学术会议的评测集希望参与直播,欢迎通过邮箱联系我们opencompass@pjlab.org.cn,您的学术成果将有机会分享给更多人。