AAAI2025 |OpenDataLab三大成果:城市环境多模态大模型评测、创新遥感图-文分析、CRaFT优化LLM拒绝机制

图片

AAAI由国际人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)主办,是人工智能领域历史最悠久、内容覆盖最广的国际顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。

近日,第39届AAAI公布了2025年论文录用结果,上海人工智能实验室OpenDataLab团队在多模态大模型评测、遥感图像理解与知识提取、语言大模型安全调优领域的研究成果受到认可,共有三篇论文被会议录用。下面是论文列表及介绍:


No.1 UrBench:多视角城市场景下大型多模态模型的综合基准测试

图片

随着人工智能技术的飞速发展,大型多模态模型(LMMs)在多个领域展现出了卓越的能力。然而,在城市环境这一特定领域,对 LMMs 的评估仍存在不足。大多数现有的基准测试仅关注于单一视角下的区域级城市任务,无法全面评估 LMMs 在复杂城市环境中的表现。为此,上海人工智能实验室联合中山大学等多家单位,推出了 UrBench,这是一个专为评估 LMMs 在多视角城市场景中表现而设计的综合基准测试。

UrBench 包含了 11.6K 个精心策划的问题,涵盖了区域级和角色级的 4 个任务维度:地理定位、场景推理、场景理解和对象理解,共计 14 种任务类型。在构建 UrBench 时,研究者们不仅利用了现有数据集中的数据,还额外从 11 个城市收集了数据,并采用跨视角检测 - 匹配方法创建了新的注释。借助这些图像和注释,研究者们整合了基于 LMM、基于规则和基于人类的方法,构建了大规模、高质量的问题集。

对 21 个 LMMs 的评估结果显示,当前的 LMMs 在城市环境中存在诸多不足。即使是表现最佳的 GPT-4o,在大多数任务中也落后于人类,从简单的计数任务到复杂的定向、定位和对象属性识别任务,平均性能差距达 17.4%。此外,该基准测试还揭示了 LMMs 在不同城市视角下表现出不一致的行为,尤其是在理解跨视角关系方面。

● 论文链接:https://arxiv.org/pdf/2408.17267

UrBench数据集下载:https://opendatalab.com/zhoubaichuan/UrBench

No.2 VHM:适用于遥感图像分析的多功能且诚实的视觉语言模型

图片

在遥感领域,视觉语言模型(VLMs)的应用研究逐渐兴起,旨在以更智能、更人性化的方式增强遥感图像分析能力。然而,现有的遥感图像 - 文本数据集和指令数据集存在一些局限性,如图像注释内容稀疏,仅关注少数突出对象及其关系,且指令数据集仅包含关于图像中真实对象的事实性问题,导致 VLMs 容易产生虚假回答。

针对这些问题,研究者们开发了 VHM,这是一个多功能且诚实的视觉语言模型。VHM 基于一个大规模的遥感图像 - 文本数据集 VersaD 和一个包含事实性和欺骗性问题的诚实指令数据集 HnstD。VersaD 的注释内容丰富,提供了关于图像属性、对象属性和整体场景的详细信息,使 VHM 能够全面理解遥感图像并执行多样化的遥感任务。HnstD 则通过包含欺骗性问题,防止 VHM 对无意义的查询产生肯定回答,确保其诚实性。

在实验中,VHM 在场景分类、视觉问答和视觉定位等常见任务上显著优于多种视觉语言模型,并在建筑矢量化、多标签分类和诚实问答等未被充分探索的任务上表现出色。

● 论文链接:https://arxiv.org/pdf/2403.20213

VHM_VersaD数据集下载:https://opendatalab.com/OpenDataLab/VHMData

No.3 拒绝感知指令调优中的确定性知识流动

图片

本文提出了一种名为 Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning (CRaFT) 的方法,旨在解决大型语言模型(LLMs)在拒绝意识指令调整(Refusal-Aware Instruction Tuning, RAIT)过程中出现的过度拒绝问题。RAIT 通过将训练数据中未知问题的响应修改为“我不知道”,增强了LLMs的可靠性并减少了幻觉。然而,这种方法可能导致LLMs过度拒绝它们本可以正确回答的问题,即过度拒绝问题。CRaFT 通过引入响应确定性来选择性地过滤和修改数据,减少静态冲突,并通过初步排练训练来表征LLMs知识状态的变化,帮助缓解微调过程中的动态冲突。通过在开放式问答和多项选择题任务上的广泛实验,结果表明CRaFT可以提高LLMs在RAIT过程中的整体性能。此外,本文还分析了现有拒绝意识指标的不足,并引入了真实帮助分数(Truthful Helpfulness Score, THS),以平衡可靠性和帮助性,全面评估LLM性能。

● 论文链接:https://arxiv.org/pdf/2410.06913

CRaFT数据集下载:https://opendatalab.com/OpenDataLab/CRaFT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值