- 博客(198)
- 资源 (1)
- 收藏
- 关注
原创 ACPBench Hard数据集:通过开放性生成任务,将规划过程中的推理能力挑战推向极致。
2025-04-01,由IBM创建的ACPBench Hard数据集,通过开放性生成任务,将规划过程中的推理能力挑战推向极致,为评估和提升模型在行动、变化和规划方面的推理能力提供了全新视角,也为未来规划领域模型的发展指明了方向。
2025-04-03 10:35:53
417
原创 iNatAg:一个大规模的农业图像数据集,包含 2,959 个物种的 470 多万张图像,使其成为迄今为止最大的单一农业图像数据集合之一.
2025-03-29,由加州大学戴维斯分校和普林斯顿大学等机构联合创建的iNatAg数据集,包含 2,959 个物种的 470 多万张图像,为精准农业和可持续发展提供了强大的支持。该数据集不仅能够帮助研究人员更好地识别农作物和杂草,还能为农业机器学习工作流程提供直接的访问和集成,极大地推动了农业领域的技术进步。
2025-04-02 14:33:23
752
原创 SynTIDE:首个基于文本生成水下图像与密集注释数据集
2025-03-28,由华中科技大学的研究团队创建一种创新的水下数据合成方法 TIDE(Text-to-Image and DEnse annotation generation method)。该方法仅依赖文本输入,就能同时生成逼真的水下图像和多种高度一致的密集注释(如深度图和语义分割掩码)。TIDE 的出现有效缓解了水下场景中高质量、大规模密集注释数据稀缺的问题,为水下密集预测任务(如深度估计和语义分割)提供了强大的数据支持,有望推动水下视觉技术的发展,并为其他领域数据稀缺问题提供新思路。
2025-04-01 11:33:52
833
原创 DexGrasp Anything:迄今为止最大、最多样化的灵巧抓握生成数据集
2025-03-03,由上海科技大学的研究团队创建了DexGrasp Anything(DGA)的数据集,这是目前规模最大的灵巧抓取数据集,包含超过340万种不同抓取姿势,涵盖15000多个不同物体。该数据集的创建为机器人灵巧抓取领域带来了重大意义,显著提升了现有方法的泛化能力和抓取成功率,推动了通用机器人灵巧抓取技术的发展。
2025-03-31 15:52:59
555
原创 PartDrag-4D:大规模多视角零件级动态数据集,包含超过 20,000 个状态的观测数据,目的支持 4D 重建模型的训练和评估。
2025-03-26,由清华大学、密歇根大学、北京大学和 BAAI 等机构联合创建PartDrag-4D 的数据集。该数据集包含超过 20,000 个状态的多视角零件级动态观测数据,目的解决现有方法在建模零件级动态时的局限性,如 2D 视频表示的限制和处理速度慢等问题。PartDrag-4D 的创建为零件级动态建模提供了丰富的数据支持,推动了机器人操作、AR/VR 等领域的研究进展。
2025-03-27 13:46:45
587
原创 REALM:一个包含超过 94,000 个大规模记录真实世界大语言模型应用的数据集
2025-03-24 ,由卡内基梅隆大学和加州大学圣塔芭芭拉分校的研究团队创建REALM数据集,该数据集包含超过94,000个从Reddit和新闻文章中收集的LLM用例,涵盖了LLM的多样化应用和用户群体特征。它为研究LLM在不同领域的应用提供了实证基础,有助于推动对LLM社会角色演变的理解。
2025-03-26 17:21:02
1025
原创 PCLT20K:首个公开的大规模PET-CT肺癌肿瘤分割数据集
2025-03-22 ,由湖南大学、南开大学、湖南师范大学和天津医科大学肿瘤研究所共同创建的名为PCLT20K的PET-CT肺癌肿瘤分割数据集。该数据集包含21930对来自605名患者的PET-CT图像,是目前首个公开的大规模PET-CT肺癌肿瘤分割数据集,为相关领域的研究提供了丰富的数据资源,有助于推动PET-CT肺癌肿瘤分割技术的发展。
2025-03-25 13:37:16
854
原创 GAEA-1.6M:大型对话式地理定位数据集
2025-03-21,由美国中央佛罗里达大学的研究团队提出了一种名为 GAEA 的地理感知对话模型,并为此创建了 GAEA-1.6M 数据集。其意义在于填补了地理定位对话模型训练数据的空白,使得模型不仅能够预测图像的精确 GPS 坐标,还能与用户进行关于图像位置的有意义对话,为旅游、导航、城市规划等领域带来了新的可能性。
2025-03-24 16:23:54
916
原创 SynthScars:含12236张全合成图像的高质量多样化检测数据集,有像素级伪影分割、文本解释及类别标签标注。
2025-03-19,由上海交通大学、上海人工智能实验室、北京航空航天大学、中山大学和商汤研究联合创建的 SynthScars 数据集。该数据集的创建目的是解决现有合成图像检测数据集的局限性,为合成图像检测研究提供更具挑战性和实用性的基准。
2025-03-21 13:58:25
793
原创 DAPO-Math-17K:一个包含17,000个数学问题及其整数答案的数据集,专为大规模LLM强化学习设计,经过精心转换以确保准确的奖励信号。
2025-03-17, 由字节跳动、清华大学人工智能产业研究院、香港大学和清华大学AIR-SIA实验室联合创建了DAPO系统及其配套的DAPO-Math-17K数据集。该数据集通过精心设计和转换,为大规模LLM强化学习提供了高质量的数学问题和答案,助力模型在复杂推理任务上取得显著提升,推动了LLM在数学领域的应用和发展。
2025-03-20 10:57:51
599
原创 MicroVQA:首个针对显微镜科学研究的多模态推理基准数据集
2025-03-18,由斯坦福大学、清华大学等联合创建了 MicroVQA 数据集,这是一个针对显微镜科学研究的视觉问答基准,目的评估专家图像理解、假设生成和实验设计这三种对科学研究至关重要的推理能力,填补了现有基准在复杂多模态科学推理方面的空白,为推动 AI 驱动的生物医学研究提供了宝贵资源。
2025-03-19 17:08:35
1035
原创 PH2D数据集: 用人类演示数据提升人形机器人操作能力,助力跨实体学习
2025-03-18, 由加州大学圣地亚哥分校, 卡内基梅隆大学, 华盛顿大学, 麻省理工学院等机构联合收集了PH2D数据集。该数据集包含26824个任务导向的人类演示,采用消费者级VR设备收集,提供了准确的3D手部关键点姿态和语言注释。数据集覆盖了多种操作任务、不同的物体和容器,旨在通过模仿人类行为来学习人形机器人的操作策略,促进跨模态学习并提高机器人政策的泛化能力和鲁棒性。
2025-03-19 15:56:12
986
原创 WideRange4D: 一个包含丰富4D场景数据的新基准数据集
2025-03-11 ,由北京大学、中国科学院大学和新加坡国立大学联合提出了一种新的4D重建基准数据集WideRange4D。该数据集通过引入具有大范围空间运动的4D场景数据,填补了现有4D重建数据集在复杂动态场景中的空白,为4D重建方法的全面评估提供了更具挑战性和多样性的基准。
2025-03-18 16:32:55
690
原创 EmbodiedSAM:在线实时3D实例分割,利用视觉基础模型实现高效场景理解
2025-02-12,由清华大学和南洋理工大学的研究团队开发 一种名为 EmbodiedSAM(ESAM)的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解,解决了高质量3D数据稀缺的难题,为机器人导航、操作等任务提供了高效、准确的视觉感知能力。
2025-03-18 15:22:12
599
原创 GoT:一个包含超过 900 万样本的大规模数据集,涵盖详细的语义-空间推理链,用于支持视觉生成和编辑任务。
2025-03-14,由 CUHK MMLab、HKU、SenseTime、上海人工智能实验室、清华大学和北航等机构联合创建的 Generation Chain-of-Thought (GoT) 数据集,这是一个包含超过 900 万样本的大规模数据集,涵盖详细的语义-空间推理链。这个数据集为视觉生成和编辑任务提供了强大的推理能力支持,推动了多模态大语言模型在视觉领域的应用,使生成的图像更符合人类意图。
2025-03-17 11:38:56
1020
原创 MindGYM:一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。
2025-03-13,由中山大学和阿里巴巴集团的研究团队提出了MindGYM框架,通过合成自挑战问题来增强视觉-语言模型(VLMs)的推理能力。MindGYM框架通过生成多跳推理问题和结构化课程训练,显著提升了模型在推理深度和广度上的表现,同时减少了对大规模数据和计算资源的依赖。
2025-03-14 15:49:17
704
1
原创 VLRMBench :一个涵盖数学推理、幻觉理解、多图像理解等多种任务的视觉-语言奖励模型基准测试数据集,包含 12,634 个问题,目的全面评估 VLRMs 的推理能力。
2025-03-10,由上海交通大学和小红书公司联合创建了VLRMBench数据集。是一个专门用于评估视觉-语言奖励模型的综合性基准测试,包含12,634个问题,覆盖数学推理、幻觉理解和多图像理解三大领域。为视觉-语言奖励模型的全面评估提供了新的标准,推动了该领域的发展。
2025-03-12 17:28:54
719
原创 NAVCON:首个大规模基于认知和语言对齐的视觉语言导航预料库
2024-12-18 ,由宾夕法尼亚大学创建的 NAVCON ,这是一个大规模的视觉语言导航语料库,基于 R2R 和 RxR 数据集构建。该数据集通过标注导航指令中的核心概念,为模型提供更透明的跨模态对齐训练资源,显著提升了导航任务的可解释性和泛化能力。
2025-03-09 14:45:42
625
原创 MuBlE:为机器人操作任务规划提供了逼真的视觉观察和精确的物理建模
2025-03-05,由华为诺亚方舟实验室、捷克技术大学和帝国理工学院联合开发的MuBlE(MuJoCo and Blender simulation Environment)模拟环境和基准测试。通过结合MuJoCo物理引擎和Blender高质量渲染,为机器人操作任务规划提供了逼真的视觉观察和精确的物理建模,填补了长时域机器人操作任务模拟环境的空白,为机器人操作任务的训练和评估提供了新的工具和挑战。
2025-03-06 11:09:48
969
原创 M-ABSA数据集:首个涵盖21种语言和7个领域的多语言平行面向方面的情感分析数据集
2025-02-14,由广东省量子工程与量子材料重点实验室、华南师范大学电子科学与技术学院(微电子学院) 等研究机构合作创建的多语言面向方面的情感分析(ABSA)数据集——M-ABSA。该数据集覆盖21种语言和7个不同领域,是目前最全面的多语言平行ABSA数据集。它为多语言情感分析研究提供了丰富的资源,能够支持跨语言、跨领域的模型评估和开发,推动多语言ABSA技术的发展。
2025-03-06 10:30:31
1560
原创 DIPSER 数据集:首个面向真实场景下学生课堂参与度识别的数据集
2025-02-27 ,由西班牙阿利坎特大学计算机研究所发布的DIPSER数据集,是首个专注于真实场景下学生课堂参与度识别的数据集。该数据集的创建填补了教育技术领域在学生注意力分析方面的数据空白,为开发更精准的教育工具和提升教学质量提供了有力支持。
2025-03-05 17:43:55
1252
原创 PanAf-FGBG Dataset:首个针对野生动物行为识别背景影响的大规模数据集
2025-03-01 ,由布里斯托大学、野生黑猩猩基金会、莱比锡大学等机构创建了名为PanAf-FGBG的数据集,该数据集包含20小时的野生黑猩猩行为视频,首次提供了前景(含黑猩猩)和背景(不含黑猩猩)视频对。这一数据集的意义在于能够系统地分析背景信息对野生动物行为识别的影响,并为模型的泛化能力提供量化评估,助力野生动物保护和行为研究。
2025-03-05 17:11:37
785
原创 由麻省理工学院计算机科学与人工智能实验室等机构创建低成本、高效率的物理驱动数据生成框架,助力接触丰富的机器人操作任务
2025-02-28,由麻省理工学院计算机科学与人工智能实验室(CSAIL)和机器人与人工智能研究所的研究团队创建了一种低成本的数据生成框架,通过结合物理模拟、人类演示和基于模型的规划,高效生成大规模、高质量的接触丰富型机器人操作数据集。
2025-03-03 17:16:06
930
原创 Collab-Overcooked:专注于多智能体协作的语言模型基准测试平台
2025-02-27,由北京邮电大学和理想汽车公司联合创建。该平台基于流行的《Overcooked-AI》游戏环境,设计了更具挑战性和实用性的交互任务,目的通过自然语言沟通促进多智能体协作。
2025-03-03 17:09:09
1189
原创 V-HOP:结合视觉和触觉多模态融合数据集,助力机器人实现鲁棒的6D物体姿态跟踪
2025-02-25,由布朗大学和德州大学达拉斯分校联合创建了V-HOP数据集,目的通过结合视觉和触觉信息实现鲁棒的6D物体姿态跟踪。该数据集的最大特点是包含了多种机械手和物体的多模态数据,能够有效支持跨机械手和跨物体的泛化能力,为机器人在复杂环境下的精准操作提供了更强大的感知支持。
2025-02-26 17:16:40
1335
原创 Para-Lane: 首个真实世界多车道数据集,目的评估自动驾驶系统中的新型视角合成能力。
2025-02-22,阿里巴巴集团菜鸟自动驾驶实验室和百度研究院共同创建了一个名为 Para-Lane 的真实世界多车道数据集。该数据集目的评估自动驾驶系统中的新型视角合成(NVS)能力,通过提供大量真实世界的数据,弥补了现有合成数据集在真实性方面的不足,为自动驾驶技术的发展和仿真提供了重要支持。
2025-02-25 18:19:13
1201
原创 截止25年2月,全国已开放24个公共数据授权运营平台-浙江省引领全国
五号数据雷达监测显示,各省陆续制定公共数据授权运营管理办法。各办法授权基本按照,管理办法制定,数据授权公示,数据产品开发三部曲稳步推进。截至25年2月25日,全国公开的公共数据授权运营平台已达24家。另多家已开始授权运营活动,其中浙江公示数据授权场景已达65个。
2025-02-25 17:19:19
1100
原创 具身人工智能全面调查论文中49个数据集下载地址的整理
本文针对Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI 中的49个数据集进行完整下载地址整理收集。2024年8月26日,由刘洋、陈伟星、白永杰、梁晓丹、李冠斌、高文、林亮等作者编写,深入探讨了具身智能AI。具身人工智能的关键技术: 具身感知、具身交互、具身智能体、模拟到真实世界迁移。具身感知主要涉及:主动视觉感知、三维视觉定位、视觉语言导航、非视觉感知:触觉一、具身感知中 (22个)1
2025-02-24 14:39:12
1191
原创 s1K 数据集:是一个用于提升语言模型推理能力的高质量数据集。包含 1,000 个问题,每个问题都配有详细的 推理路径 和 答案。
2025-02-07, 由斯坦福大学、华盛顿大学等研究机构创建了 s1K 数据集,该数据集包含 1,000 个精心挑选的问题,并配以推理轨迹和答案,为语言模型推理能力的提升提供了重要的数据基础。
2025-02-17 16:02:58
1254
原创 MME-CoT:专为评估大型多模态模型CoT推理能力的基准测试。涵盖了数学、科学、OCR、逻辑、时空和一般场景6个领域。
2025-02-09 ,由CUHK MMLab、CUHK MulLab、字节跳动、、东北大学等机构联合发布MME-CoT数据集,该数据集目的评估大型多模态模型(LMMs)中的思维链(CoT)推理能力,涵盖数学、科学、OCR、逻辑、时空和通用场景六个领域,通过细致的评估指标体系,深入分析了当前LMMs在推理质量、鲁棒性和效率方面的表现,为多模态推理研究提供了重要的参考和指导。
2025-02-17 15:58:34
989
原创 大模型数据集全面整理:444个数据集下载地址
2024-02-28,由杨刘、曹家欢、刘崇宇、丁凯、金连文等作者编写,深入探讨了大型语言模型数据集,这些数据集在大语言模型中取得的显著进步中发挥着至关重要的作用。调查从五个方面对LLM的 444个 数据集进行了整理和分类。
2025-02-10 11:03:47
1455
原创 DeepBranchTracer:一种使用多特征学习进行曲线结构重建的通用方法
2024-02-02,由刘超、赵婷、郑能干一起提出了一种名为DeepBranchTracer的新型方法,是一种高效、通用的曲线结构重建方法,适用于多种 2D 和 3D 图像数据集。通过结合图像特征和几何特征,显著提高了重建的准确性和连续性。
2025-02-07 11:12:41
630
原创 PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架
2025年1月7号,由杨德杰、赵子敬、刘洋联合提出PlanLLM,一种基于可微调大型语言模型(LLM)的跨模态联合学习框架,用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块,PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制,实现了对新步骤和任务的泛化能力。该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升,展现了其在弱监督学习中的有效性。
2025-02-06 21:29:15
927
原创 可靠冲突性多视角学习:通过证据驱动的多视角融合提供决策可靠性
2024年2月28日,由多位作者联合提出了一种名为可靠冲突性多视角学习(RCML)的框架,其核心贡献在于为含有冲突性实例的多视角数据提供决策结果与可靠性评估。该方法通过证据驱动的多视角融合(ECML)策略,在6个公开数据集上验证了其在准确性、可靠性和鲁棒性上的优势。
2025-02-06 18:47:22
924
原创 Git-10M :一个全球规模的遥感图像-文本对数据集,包含1000万图像-文本对,覆盖广泛的地理场景和丰富的地理空间元数据。
2025-01-02,由北京航空航天大学的研究团队创建了数据集Git-10M,这是一个包含1000万图像-文本对的全球规模遥感数据集。该数据集为文本驱动的遥感图像生成技术提供了强大的基础,显著提升了生成图像的多样性和质量,推动了遥感图像生成技术的发展。
2025-01-24 18:00:13
1261
原创 一个专为细粒度时空多模态理解任务设计,涵盖不同类型的细粒度多模态理解数据集
2025-01-15,由北航大学、合肥工业大学、中科院信息工程研究所和美团等机构联合创建介绍了一种名为LLaVA-ST的多模态大型语言模型。该模型配备了一个名为ST-Align的数据集,专为细粒度时空多模态理解设计。
2025-01-17 16:18:45
1095
原创 LLMBook 大模型数据集下载地址完整收集
本文针对《LLMBook》大语言模型 | LLMBook-zh 中的56个数据集进行完整下载地址整理收集。
2025-01-13 19:59:15
2016
1
原创 数据知识产权登记|2024年度监测报告
数据知识产权登记工作在我国正快速推进,截止2024年12月31日,多个省市已经出台了相关政策并建立了登记平台。累计数据知识产权登记总量突破2万件,登记主体层面呈现多样性,包括企业、个人、机构等,登记行业集中度高,三大行业占比超50%。
2025-01-03 14:59:02
242
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人