速看!2024 ACL 评测基准专场直播回顾&干货资料来了

评测集社区 CompssHub 作为司南 OpenCompass 大模型评测体系的重要组成部分,致力于简化并加快研究人员和行业人士搜索和使用评测集的过程。评测集社区 CompssHub 目前已收录了学科、推理、知识、代码等 12 个方向的评测集,欢迎大家探索。

为了将评测集社区 CompssHub 收录的优秀评测集更好的展现给大家,11 月 14 日晚 19:00,由 OpenCampss 联合 OpenMMLab、 OpenDataLab、ModelScope 、MLNLP、Datawhale、Gitee AI 共同发起的 AI Spot 学术分享会 - ACL 评测基准专场成功举办,超过 1 万名观众在线观看了此次直播。

图片

本期直播以“2024 ACL 评测基准专场”为主题,邀请了CHARM、SALAD-BENCH、MT-Bench-101的作者带来 ACL 2024 的最新学术成果分享。

错过了本期 AI Spot 直播?别担心,点击下方视频,查看精彩内容回放。

关注“司南评测体系”公众号,后台回复关键词“ACL 评测基准”,即可领取本期嘉宾演讲 PPT。

1. 武汉大学硕士 孙嘉星 《多模态中文常识推理基准-CHARM》

“我们构建了 CHARM,这是第一个用于全面和深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试,它涵盖了全球范围内通用的常识以及中国特色的常识。我们在 CHARM 上评估了 7 个英文和 12 个面向中文的 LLMs,采用了 5 种代表性的提示策略来提高 LLMs 的推理能力。”

中文常识推理基准-CHARM_哔哩哔哩_bilibiliCHARM,这是第一个用于全面和深入评估大型语言模型(LLMs)在中文常识推理能力的基准测试,它涵盖了全球范围内通用的常识以及中国特色的常识。我们在 CHARM 上评估了 7 个英文和 12 个面向中文的 LLMs,采用了 5 种代表性的提示策略来提高 LLMs 的推理能力。我们的发现表明,LLM 的训练语料和应用的任务的领域影响了提示策略的有效性,这丰富了以往的研究成果。我们构建了紧密相连的推理, 视频播放量 1242、弹幕量 0、点赞数 16、投硬币枚数 1、收藏人数 8、转发人数 2, 视频作者 OpenMMLab, 作者简介 ,相关视频:AnythingLLM:打造个人AI知识库 完全在本机运行! |开源项目 可一键安装,【全748集】目前B站最全最细的AI大模型零基础全套教程,2025最新版,包含所有干货!七天就能从小白到大神!少走99%的弯路!存下吧!很难找全的!,【精选】一个视频看懂免费开源助手Ollama从安装到微调!零基础也能轻松看懂的Ollama安装!,【智能体Agent】从零打造你的自媒体工作素材库!10小时博士精讲如何从0到1搭建AI Agent—RAG、DEBUG、提示工程、GPT、,【喂饭教程】20分钟学会微调大模型Qwen2.5,环境配置+模型微调+模型部署+效果展示详细教程!草履虫都能学会~,BERT模型实战:这可能是B站目前将BERT模型讲明白的自然语言处理框架唯一教程了!中文情感分析、医学糖尿病数据命名实体识别、word2vec,EchoMimic的V2版本整合包,支持半身图片生成数字人,仅用一张图片加一段音频即可生成说话数字人,【AI工作流】手把手教你使用Dify创建一个由AI自动生成PPT的应用,办公效率飙升!,【喂饭教程】Qwen2.5-Coder接入Cursor, 性能超越GPT-4o!本地运行集成代码开发器LLM丨一站式搞定低代码开发全流程!,花几千万训练的大模型免费开源,图什么?icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1QcmdYiExz/

论文链接

https://arxiv.org/abs/2403.14112

代码链接

https://github.com/opendatalab/CHARM

评测集社区 CompssHub

https://hub.opencompass.org.cn/dataset-detail/CHARM

2. 上海人工智能实验室青年研究员 李力骏《分享 SALAD-BENCH 数据集与评估方法》

“我们提出了 SALAD-Bench,这是一个专门为评估 LLM、攻击和防御方法而设计的安全基准。SALAD-Bench 通过其大规模、丰富的多样性、跨越三个级别的复杂分类法和多功能功能超越了传统基准。SALAD-Bench 精心设计了一系列问题,从标准查询到富含攻击、防御修改和多项选择的复杂问题。”

分享 SALAD-BENCH 数据集与评估方法_哔哩哔哩_bilibiliSALAD-Bench,是一个专门为评估 LLM、攻击和防御方法而设计的安全基准。SALAD-Bench 通过其大规模、丰富的多样性、跨越三个级别的复杂分类法和多功能功能超越了传统基准。SALAD-Bench 精心设计了一系列问题,从标准查询到富含攻击、防御修改和多项选择的复杂问题。为了有效地评估大语言模型的安全性,我们引入了一个创新的评估器:基于 LLM 的 QA 对 MD-Judge,特别关注, 视频播放量 1568、弹幕量 0、点赞数 9、投硬币枚数 2、收藏人数 8、转发人数 1, 视频作者 OpenMMLab, 作者简介 ,相关视频:【stable diffusion】SD教程,AI摄影写真零成本手把手教学,让你动动手指就能轻松月入上万,【全298集】强推!2024最细自学人工智能全套教程,算法水平猛涨,别再走弯路了,逼自己一个月学完,从0基础小白到AI算法工程师只要这套就够!,Yuval Harari《智人之上》(Nexus) 读后感,【吴恩达】2024年公认最好的【LLM大模型】教程!大模型入门到进阶,一套全解决!附带课件代码-Generative AI for Everyone,超变态的AI一键换装!免费分享工作流教程!效果炸裂,OpenDataLab —— 一个面向人工智能的开放数据平台,3. KITTI 数据集介绍及 MMDet3D 坐标系规范,【精选27集】这应该是全网AI Agent讲解得最透彻的教程了,3小时全流程解读分析,简直比刷剧还爽!大模型/LLM/人工智能,评估大语言模型多轮对话能力的细粒度评测集,多模态大模型的技术实践与思考icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1KimoYaExY/

论文链接

https://arxiv.org/pdf/2402.05044

代码链接

https://github.com/OpenSafetyLab/SALAD-BENCH

评测集社区 CompssHub

https://hub.opencompass.org.cn/dataset-detail/SALAD-Bench

3. 阿里算法工程师 贺彦程《评估大语言模型多轮对话能力的细粒度评测集》

“我们提出了 MT-Bench-101, 专门用于评估 LLMs 在多轮对话中的细粒度能力。基于 MT-Bench-101 对 21 个流行的 LLMs 进行了评估,我们从能力和任务两个角度进行了全面分析,并观察到 LLMs 在不同任务中的对话轮次表现出不同的趋势。”

评估大语言模型多轮对话能力的细粒度评测集_哔哩哔哩_bilibiliMT-Bench-101, 专门用于评估 LLMs 在多轮对话中的细粒度能力。基于 MT-Bench-101 对 21 个流行的 LLMs 进行了评估,我们从能力和任务两个角度进行了全面分析,并观察到 LLMs 在不同任务中的对话轮次表现出不同的趋势。分析表明,常见的对齐技术或专为聊天设计的方法,并未显著提升 LLMs 在多轮对话中的表现。大量的案例研究表明,我们设计的任务能够准确评估相应的多轮对, 视频播放量 1433、弹幕量 0、点赞数 15、投硬币枚数 1、收藏人数 24、转发人数 2, 视频作者 OpenMMLab, 作者简介 ,相关视频:2024吃透AI大模型,通俗易懂,学完即就业!拿走不谢,学不会我退出IT圈!!!,大语言模型 + 物联网的演示,【B站第一】哔哩哔哩大学298小时讲完的大模型RAG智能体企业级项目实战!从小白到学神!全程干货无废话!学完即可就业!限时白嫖!,AI大模型全套教程(LLM+RAG+Langchain+国产大模型ChatGLM-4+NLP新模型Transformer),【全298集】强推!2024最细自学人工智能全套教程,算法水平猛涨,别再走弯路了,逼自己一个月学完,从0基础小白到AI算法工程师只要这套就够!,分享 SALAD-BENCH 数据集与评估方法,2025年翻遍整个B站,这绝对是最好的AI大模型教程全集(LLM+RAG系统+GPT-4o+OpenAI),让你少走99%的弯路!,十分钟彻底搞懂大模型底层原理——带你构建对大模型的认知!零基础也能轻松看懂!,目前B站最全最细的ChatGPT零基础全套教程,2024最新版,包含所有干货!七天就能从小白到大神!少走99%的弯路!存下吧!很难找全的!,【AI大模型】十分钟彻底搞懂AI大模型底层原理!带你从0构建对大模型的认知!小白也能看懂!icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1mvmoYAEAv/

论文链接

https://aclanthology.org/2024.acl-long.401/

代码链接

https://github.com/mtbench101

评测集社区 CompssHub

https://hub.opencompass.org.cn/dataset-detail/MT-Bench-101

本次直播分享的评测基准都已上传至 OpenCampass 评测基准社区,这是一个面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。欢迎大家访问了解更多精彩内容

社区地址:

https://hub.opencompass.org.cn/home

如果您也有ACL 或其他顶级学术会议的评测集希望参与直播,欢迎通过邮箱联系我们opencompass@pjlab.org.cn,您的学术成果将有机会分享给更多人。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值