
数据集汇总
文章平均质量分 87
HyperAI超神经
链接人工智能新场景
展开
-
航拍数据集汇总,覆盖车辆/船舶检测/物体评估/城市景观……
与传统的数据采集方式相比,航拍可以在短时间内获取大规模的信息数据,大大提高了数据采集的效率。该数据集用于空中景观分类,图像共 12k 张,包含 15 个不同类别(农业、飞机场、海滩、城市、沙漠、森林、草原、公路、湖、山、停车场、港口、铁路、住宅、河),每个类别包含 800 张高质量图像,分辨率为 256×256 像素。该数据集用于空中景观分类,图像共 8k 张,包含 10 个不同类别(桥、商业场所、工业场所、路口、地标、公园、停车场、操场、住宅、体育场),每个类别包含 800 张高质量图像。原创 2025-03-28 19:12:26 · 667 阅读 · 0 评论 -
覆盖数学/代码/科学/谜题,高质量推理数据集汇总,助力复现DeepSeek超强推理能力
Dolphin-R1 推理数据集包含约 80 万个样本,数据来源包括 DeepSeek-R1、Gemini Flash 以及 Dolphin Chat 提供的 20 万个样本,旨在为训练类似 DeepSeek-R1 的推理模型提供高质量的样本。LIMO 数学推理基准数据集仅包含了 817 个高质量数学推理样本,旨在通过精心挑选高质量的训练样本,训练和评估大模型的数学推理能力,该数据集主要用于训练大模型的数学解题能力,提升其在数学考试、竞赛题目(如 AIME、MATH-500 等)上的表现。原创 2025-02-28 14:03:50 · 791 阅读 · 0 评论 -
推理速度提升 1.7 倍,vLLM v1 版本发布!超 4k 标注步骤,首个多模态逐步推理基准 VRC-Bench 上线
本文整理了医学领域的 10 个数据集,涵盖神农中医药、中医药古籍、医学推理、医学问答等,可以直接点击下载。该数据集包含中国 352 个城市的旅游景点数据,每个城市的 csv 文件包含 100 个地点,数据包括地点名称、网址、地址、景点介绍、开放时间、图片网址、评分、建议游玩时长、建议游玩季节、门票信息、小贴士等信息。该数据集涵盖了 8 个不同领域的挑战,包括视觉推理、数学与逻辑推理、科学推理、文化和社会理解等,含超过 4k 个手动验证的推理步骤,能够全面评估模型在多步推理中的准确性和逻辑连贯性。原创 2025-02-14 18:29:11 · 954 阅读 · 0 评论 -
10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像 RJUA-QA 这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。原创 2025-01-17 15:35:59 · 657 阅读 · 0 评论 -
单卡 A6000 一键启动 AlphaFold3 教程上线!360 度运动捕捉数据集发布,含超 7 万个视频、50 种实体对象
本文是对该企业的详细报道。该数据集包含 3,203 张真实人脸和 AI 生成的合成人脸的高质量图像,其中真实图像有 2202 张,AI 生成的图像有 1,001 张,专为机器学习和深度学习应用而设计。此外,数据集还包含了 121 个不同的轨迹模板,为研究者提供了丰富的运动模式和行为变化。该数据集为使用各种模型对脑肿瘤进行分类和分割的数据集,共包含 7,153 个图像,其中有 1,621 个神经胶质瘤图像,1,775 个脑膜瘤图像,1,757 个垂体图像,2,000 个无肿瘤(大脑健康)图像。原创 2024-12-20 16:24:11 · 1005 阅读 · 0 评论 -
NeurIPS 2024 有效投稿达 15,671 篇,数据集版块内容丰富
内含 9 个数据集下载链接原创 2024-11-26 11:45:07 · 1126 阅读 · 0 评论 -
含284个数据集,覆盖18项临床任务,上海AI Lab等发布多模态医疗基准GMAI-MMBench
内含数据集下载链接原创 2024-11-19 15:10:30 · 906 阅读 · 0 评论 -
最大开源机器人数据集!DeepMind联手21家机构,整合60个数据集,发布Open X-Embodiment,具身智能时代来临
为具身智能发展按下加速键原创 2024-10-25 17:04:37 · 1674 阅读 · 0 评论 -
数据集汇总|18个电影/音乐数据集汇总,覆盖影片/歌曲推荐、电影评价、歌词识别、音乐流派······
该数据集可用于电影推荐系统的研究和开发,数据集有多个版本,包括但不限于 MovieLens 100K 、 MovieLens 1M 、 MovieLens 10M 、 MovieLens 20M 等,广泛应用于机器学习、数据挖掘和个性化推荐系统的研究中。对于每首作品,数据集都提供了 MIDI 格式的乐谱、高质量的单个乐器录音和合成作品的视频。TMDB 是一个综合性的电影数据库,包含来自 TMDB 数据库的 100 万部电影的集合,提供有关电影的信息,包括标题、评级、发行日期、收入、类型等细节。原创 2024-10-08 16:28:05 · 1990 阅读 · 0 评论 -
数据集汇总|DeepFake 乱象丛生,用魔法打败魔法!高质量数据集助力伪造监测技术发展
11个高质量数据集汇总原创 2024-09-12 18:06:00 · 1634 阅读 · 0 评论 -
水平直逼高级病理学家!清华团队提出AI基础模型ROAM,实现胶质瘤精准诊断
研究人员借助 ROAM 探究了与胶质瘤诊断相关的关键分子特征的形态学表现,关注到 ROAM 在预测异柠檬酸脱氢酶 (IDH) 突变的分子特征任务上表现优异,对 ROAM 在该任务中的预测结果进行了完整的可视化分析,并对 ROAM 关注的高注意力关键区域的组织形态特征进行分析和总结,发现在 IDH 突变的病理图像中普遍存在嗜酸性细胞增多、细胞质均匀和细胞核深染的现象。通过可视化和解释诊断,ROAM 能够帮助病理学家验证模型诊断基础的可靠性,提取有价值的信息,并促进辅助诊断,提高医疗水平。原创 2024-08-01 14:22:57 · 1663 阅读 · 0 评论 -
遥感资源大放送(下)| 11 个经典遥感数据集
内容提要:利用遥感影像进行土地类别分型,最常用的方法是语义分割。本文继上期土地分类模型训练教程之后,又整理了几大主流公开遥感数据集。原创:HyperAI超神经关键词:遥感数据集 语义分割 机器视觉在上一期 《遥感资源大放送(上):用开源代码,训练土地分类模型 》 中,我们详细介绍了遥感影像进行土地分类的常用方法,以及具体如何使用利 deeplab-v3+ 用于土地 7 分类的具体训练过程及代码。教程地址:https://openbayes.com/console/openbayes/cont.原创 2021-02-26 14:43:34 · 17650 阅读 · 0 评论 -
超全大模型资源汇总|30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!
该数据集包含 23,659 个人工翻译的 PAWS 评估对,以及 296,406 个机器翻译的训练对,采用 6 种不同的语言:法语、西班牙语、德语、中文、日语和韩语。LongAlign-10k 由清华大学提出,是一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。可用于训练高质量的对话模型。该数据集来自讯飞 AIUI开放平台,包含真实用户的语料和专家构造的语料(比例约为 3:7),共 59 个真实域,是目前域最多的对话数据集之一。原创 2024-04-07 13:50:09 · 1457 阅读 · 0 评论 -
一键部署LLaMA 3 Chinese Chat,含中文训练数据集;Food2K数据集下载,含2千类别,100万张图片...
前段时间 Llama 3 的重磅开源让 AI 圈的众人都兴奋了一把,但它对纯中文的支持不是很好,不能灵活地根据中文提问切换至相应语言进行回答。hyper.ai 本周上线了Llama 3 中文版——LlaMA 3 Chinese Chat 的部署推理教程,有效解决了「中文问题英文回复」的尴尬,让对话更加自然流畅。教程已经将模型与环境部署完毕,只需打开 API 地址即可推理体验!等不及了,我要试试????...原创 2024-06-03 08:00:25 · 3421 阅读 · 0 评论 -
数据集汇总丨萝卜快跑明年盈利?自动驾驶开启「端到端」新时代,高质量数据集助力 AI 大模型上车
其中包括 249,129 个 3D 注释帧,4,902 个用于跟踪的独立帧(总长度为 214,922 点),6,004 个用于 5D 交互式事件识别的有效片段,以及 4,900 个用于 5D 意图预测的帧。同时图片包含了多种不同的道路场景(城市,高速,城乡道路,园区),天气(晴天,多云,雨天,雪天),时间段(白天,晚上,凌晨/黄昏)。系统接收到传感器的输入数据后,直接输出驾驶决策,其开发模式也由规则驱动转向了数据驱动,即通过大量有价值数据的训练,让 AI 自主学习人类的驾驶模式,直到智能涌现。原创 2024-07-23 11:40:35 · 919 阅读 · 0 评论 -
【持续更新中!气象数据集汇总】气象局首次发布训练数据目录!CAMELS 美国天文气象数据集等上线官网
该数据集为论文 「Global prediction of extreme floods in ungauged watersheds」的研究数据,主要内容为 AI 模型生成的洪水重新分析 (1984-2021) 和重新预测 (2014-2021) 数据以及相应的 GloFAS 基准数据。数据集可鼓励在天气领域进行机器学习研究,方便在理解和减轻气候变化影响方面的工作。SEVIR 将多种天气传感模式组合并整合成一个单一的、可访问的数据集,该数据集可在云端免费访问,可供气象学家、数据科学家和其他研究人员使用。原创 2024-05-30 16:18:00 · 1579 阅读 · 0 评论 -
【数据集汇总】大众点评/携程/百度地图/米其林餐厅……内含餐厅/酒店的真实评价...
作者:李宝珠编辑:三羊HyperAI超神经整理了 5 个优质数据集,覆盖国内外出行的「食住行」刚需。又到「小长假」,HyperAI超神经在这里祝各位打工人假期愉快!这个小长假多少有点「闹心」了——休假 5 天,调休补班 2 天,还有 2 天是周末……放假安排一出,立刻遭到了网友的吐槽:不过,从 12306 平台上堪比「春运」的抢票战况来看,仍然有很多人选择出游或探亲。众所周知,每逢假期,不仅是景点...原创 2024-05-02 08:31:04 · 2296 阅读 · 0 评论 -
【持续更新中!图像-文本对数据集汇总】Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就是由 SD3 生成的图像。* prompt史诗级动漫作品:一位巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语,咒语上写着「Stable Diffusion 3」,由五彩缤纷的能量组成在 SD3 的背后,是庞大的图像-文...原创 2024-06-13 11:00:53 · 2920 阅读 · 0 评论 -
【数学数据集汇总】天才博士陶哲轩力荐数据集!含代码、中文竞赛题目、正向逆向问答对等...
上周,著名数学家陶哲轩在个人博客中发布了「AI for Math Resourses」的资源清单,旨在为那些有意进入人工智能数学领域的人提供帮助,这份清单由「人工智能辅助数学推理」研讨会整理。该研讨会由美国国家科学院、工程院和医学院共同组织,陶哲轩担任该研讨会的主持人。这份清单文档尚未最终定稿,陶哲轩及其他研究者仍在不断完善中。HyperAI超神经从中筛选出了部分数据集供大家下载使用,除此之外,还...原创 2024-04-23 17:02:26 · 788 阅读 · 0 评论 -
【持续更新中,图像分割数据集】字节发布 COCONut 入选 CVPR 2024,立即体验 Segment Anything 分割万物!|持续更新中!
随着计算机视觉技术的不断发展,图像分割在诸多领域展现出重要的应用价值。近年来,各种图像分割数据集如雨后春笋般涌现。上个月,字节跳动发布了首个大规模全景图像分割数据集「COCONut」,为这一领域的研究注入了新鲜血液。HyperAI超神经本周汇总了 10 个优质的图像分割数据集进行汇总和分析,以更好地推动相关研究的进展。除此之外,GitHub 上超火的项目「Segment Anything 分割万物...原创 2024-05-09 15:09:25 · 1008 阅读 · 1 评论 -
【持续更新中!数学数据集汇总】天才博士陶哲轩力荐数据集!含代码、中文竞赛题目、正向逆向问答对等
数学数据集持续更新中,建议收藏!欢迎投稿优质数据集原创 2024-04-23 20:19:00 · 1824 阅读 · 0 评论