自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (2)
  • 收藏
  • 关注

原创 大模型应用的数字能源数据集

数据集的增长速度与大模型的发展紧密相关,多模态大模型的出现进一步扩大了对大规模数据集的需求。数据集是大模型发展的核心要素之一,是大计算的标的物,是实现大模型商业闭环的基础和牵引力,是实现大模型向具身智能演进的关键主线,也是大数据产业在大模型时代的新使命。3.数据的专业化:随着大模型在特定行业应用的深入,所需的数据不仅仅是公开可用的互联网数据,而是需要具有行业专业知识和可能包含商业机密的数据。9.数据集的创新应用:大模型不仅能够分析大数据,还能生成新的数据,这些新生成的数据为研究和应用开辟了新的可能性。

2024-12-10 23:30:32 1718

原创 标记数据集生成模型助力无数据情况下的大模型指令微调

笔者介绍一个新的样本数据生成的项目Bonito,一个用于条件任务生成的开源模型,它可以将未标注的文本转换为特定任务的训练数据集,用于指令微调。相较于使用GPT-4生成标记样本的方法,经过专门面向数据集生成微调的模型Bonito来讲,支持zero-shot级别的样本生成,并且可以使用开源的模型,这在开放性,成本、性能上都能具备较强的优势。摘要(summarization):将较长的文本浓缩成较短的摘要,抓住要点。

2024-12-10 23:22:16 1193

原创 自动驾驶数据集的应用与思考

从自动驾驶系统的感知、决策、执行三方面出发,采集到的数据可以分为八大应用方向:目标检测数据集、语义分割数据集、车道线检测数据集、光流数据集、立体数据集、定位与地图数据集、驾驶行为数据集、仿真数据集。而且对于自动驾驶系统而言,即使开源了数据集,其所需要的数据量是庞大的,一家企业的数据往往难以支撑起复杂的交通状况,需要各企业合力共建,打造从数据采集到数据标注,再到模型训练、数据分析的完整的数据闭环。至此,自动驾驶数据集的制作,已由早期的纯科研课题,转化为需要大规模人力、物力和财力支撑的工程化、商业化课题。

2024-12-09 23:54:48 1255

原创 一文读懂模型的数据集Datasets

众所周知,数据集(Datasets)对于模型来说非常重要,它是大模型这台庞大机器的原材料,在机器学习领域中所有的原生模型都是通过数据集训练出来的。本文将以通俗易懂的方式为大家介绍一下大模型的数据集,让大家了解深度学习的数据集如何构成、有哪些格式、如何收集和处理数据集才能应用到大模型的训练和优化过程中。机器学习中的数据集指的是用于训练机器学习或深度学习模型的数据集合,它是模型学习的基础,模型通过学习训练数据中的模式、特征和规律,来构建用于预测或分类的能力。数据质量:训练数据的质量直接决定模型的性能。

2024-12-09 23:49:19 3159

原创 鸟类识别与分类数据集概览

鸟类识别与检测是计算机视觉领域中的一个重要课题,涉及图像处理、机器学习、深度学习等多个方面。为了推动这一领域的发展,众多研究机构和企业发布了大量关于鸟类识别与检测的数据集。本文将详细介绍这些数据集,包括其来源、结构、应用场景以及使用建议,旨在为相关研究人员和开发者提供有价值的参考。鸟类识别与检测数据集通常包含大量的鸟类图像,这些图像经过精心挑选和标注,以确保数据的质量和准确性。这些数据集可以用于训练机器学习模型,特别是深度学习模型,以实现高精度的鸟类识别和检测。

2024-12-04 22:52:10 1526

原创 可用于新能源发电预测的高质量数据集

准确的太阳能和风能发电预测对未来电力调度至关重要。通常,可再生能源发电预测可以根据时间范围分为四种类型,即极短期(小于30分钟)、短期(30分钟-6小时)、中期(6-24小时)和长期(1-7天)。然而,与其他预测任务不同,预测可再生能源的发电量是出了名的困难,因为能源产生的可变性,而根据以往的研究,可变性深受气象条件的影响。基于AI技术的预测为该领域注入强大的动能。数据集的数量和质量是开发数据驱动预测模型的基本因素。

2024-12-04 22:15:05 1620 1

原创 数据集增强:提升深度学习模型泛化能力的关键技术

在深度学习中,数据是模型性能的基石。大规模、高质量的数据集通常能显著提高模型的泛化能力,帮助模型在真实场景中做出更准确的预测。然而,在很多实际应用中,数据收集困难、昂贵或者受限,尤其是当数据集相对较小或标注数据难以获取时,如何提升模型的性能成为了一个巨大的挑战。在这种情况下,数据集增强(Dataset Augmentation) 作为一种有效的解决方案,逐渐被广泛应用于各种深度学习任务中。

2024-12-03 21:34:44 1727

原创 ESSD: MODIS叶面积指数产品质量提升数据集(HiQ-LAI: 2000-2022)

长时间序列MODIS LAI数据集在“变绿的地球”现象、大尺度植被动态变化的可能原因、以及植被动态与全球气候变化或人类活动的关系等具有里程碑意义的研究方面做出了贡献。从这一角度来看,高质量的MODIS LAI产品至关重要。然而,MODIS LAI的再处理虽然有效地利用了时间层和QC层信息,但它们忽略了对空间信息的利用,或者更加强调依赖时间相关性信息,仅仅将空间相关性作为替代。因此,尽管LAI剖面可能看起来更平滑,但可能会忽略真实的LAI异常。

2024-12-03 21:25:37 1010

原创 InterHub:为自动驾驶提供密集互动事件的自然驾驶轨迹数据集

此外,InterHub提供了一个用户友好的工具包,支持使用公共和私有数据对数据集进行扩展,这为跨学科的互动描述和多智能体驾驶互动事件的提取提供了便利。在互动分布和参与者方面,分析了多智能体互动事件中涉及的车辆密度分布,并讨论了不同数据集中的互动事件复杂性,并且分析了所有数据集中有效互动的持续时间和强度的分布。背景与总结讨论了驾驶互动在日常驾驶中的重要性和复杂性,以及现有自动驾驶系统中处理互动时的挑战,强调了密集驾驶互动数据集在自动驾驶研究中的需求,特别是在轨迹预测、决策制定和运动规划等领域。

2024-12-02 23:21:23 1374

原创 HCSIF: 中国区域2000-2022年高时空分辨率(500m)SIF数据集

目前的卫星反演SIF数据集仅在较粗的空间分辨率下提供,而已有的降尺度研究中,大范围的SIF降尺度产品通常具有较低的空间分辨率(如0.05°),高空间分辨率(如500m)的SIF产品通常只针对特定的局部区域,缺乏大范围的长时序高时空分辨率数据集,现有降尺度研究建模过程中对于地形因子的探索不足,建模精度有限,这限制了SIF降尺度产品在精细尺度上的应用。HCSIF数据集有助于深入理解精细尺度上的陆地生态过程,为生态系统生物多样性的监测提供支持,并为作物健康、生产力及胁迫水平的长期精确评估提供参考依据。

2024-12-02 23:15:05 635 1

原创 OCR的评价指标和常用数据集

OCR(Optical Character Recognition,光学字符识别)是指对包含文本内容的图像或者视频进行处理识别,并提取其中所包含的文字及排版信息的过程。例如,一个常见的应用是将包含文档图像的不可编辑状态的 PDF 文档通过 OCR 技术识别后,转换为可编辑状态的 Word 格式文档[1]。例如,一个常见的应用是将包含文档图像的不可编辑状态的 PDF 文档通过 OCR 技术识别后,转换为可编辑状态的 Word 格式文档。

2024-12-01 23:51:24 1431

原创 FUSU: 多源多时相土地利用变化分割数据集

2.1 数据集概况数据量:FUSU数据集包含62,752个图像块,每个图像块包含27张不同时间点和来源的图像,总共覆盖了847平方公里的城市区域。覆盖区域:数据集选取了中国南北五个主要城市地区,包括嘉兴的秀洲区和西安的雁塔区、碑林区、新城区和莲湖区。这些区域具有不同的地理特征和气候类型。土地类型:FUSU数据集定义了17种细粒度土地类型,如交通用地、住宅用地、农业用地、工业用地、森林、湿地等,具有极高的标注精细度,总计超过300亿像素的土地类型标注。2.2 数据来源与时序特性。

2024-12-01 23:32:10 1199

原创 遥感数据集:FTW全球农田边界和对应影像数据,约160万田块边界及7万多个样本

Fields of The World (FTW) 是一个面向农业田地边界实例分割的基准数据集,旨在推动机器学习模型的发展,满足全球农业监测对高精度、可扩展的田地边界数据的需求。大规模数据集:包含约160万田块边界及7万多个样本,每个样本包含实例和语义分割掩膜,搭配多时间、多光谱的Sentinel-2卫星图像,支持详细的时间和光谱分析。光谱和时间丰富性:数据集包含红、绿、蓝和近红外光谱波段,并提供多时间图像,捕捉生长期的不同阶段,图像日期通过USDA作物日历和云量筛选确定。

2024-11-30 23:59:16 946 1

原创 SolarCube: 高分辨率太阳辐照预测基准数据集

1.1 数据来源与类型地球同步卫星影像:从GOES-16和Himawari-8卫星提取了三个光谱波段的数据(0.47 µm、0.86 µm和13.3 µm),这些波段与地表太阳辐照高度相关。GOES-16提供15分钟分辨率影像,而Himawari-8的时间分辨率为10分钟,经过平均处理后也达到了15分钟。物理模型计算的太阳辐照数据:利用辐射传输模型生成的15分钟分辨率的太阳辐照数据,通过辐射传输参数化模型推导出地表接收到的太阳辐照。模型使用了卫星影像的波段信息,并结合了表面反射率、大气水汽含量等变量。

2024-11-30 23:52:40 1696

原创 探秘多源异构数据:开启数据融合新时代

多源异构数据,顾名思义,其 “多源” 体现了数据来源的广泛多样性。在当今数字化时代,数据可能来自于不同的系统,比如企业内部可能同时使用多种管理系统,如 ERP(企业资源计划)系统、CRM(客户关系管理)系统等,这些系统各自独立运行,产生的数据来源各不相同。也可能来自不同的平台,例如社交媒体平台、电商平台等,每个平台都有其独特的数据生成机制。还可能来自不同的设备,如智能手机、传感器、智能家电等,这些设备收集的数据类型和格式差异巨大。

2024-11-29 23:44:19 3068

原创 准备YOLO训练数据:数据标注技术和最佳实践

通过标注自己的数据,确保模型学习识别与领域相关的对象,无论是在道路上检测车辆、识别传送带上的产品,还是在建筑工地上发现安全隐患。提供企业级本地部署,通过利用BasicAI Cloud满足你的YOLO数据标注需求,可以简化准备高质量标注数据的过程,与团队有效协作,并轻松管理自己的数据集。在BasicAI Cloud UI上,转到“Datasets”,点击“+Create”,选择“Image”类型,命名你的数据集,然后点击“Create”。点击对象的一个角,然后点击对角,创建一个框,使用箭头工具调整边缘。

2024-11-24 23:52:57 1152

原创 SkatingVerse:大规模行为理解综合数据集

为了解决现有人体行为理解数据集所面临的问题,我们基于花样滑冰动作构建了一个大规模多任务综合数据集SkatingVerse。如图二所示,它同时包含了人体动作识别、分割、提议以及评估四类经典行为理解任务。此外,基于实际应用需求,SkatingVerse首次提出连续动作分割评估任务,即判断给定的一段长视频中什么时候发生了何种动作,以及该动作做得如何。此外SkatingVerse数据集的动作类别具有多层级粒度的特点,因此有助于对花滑动作进行更科学的分析。

2024-11-23 23:59:23 980

原创 YOLOv11来了,使用YOLOv11训练自己的数据集和预测

与训练集上的分布预测损失(train/dfl_loss)相似,val/dfl_loss 反映了模型在验证集上对边界框位置预测的准确性。与train/box_loss相似,但它是在模型对验证集进行预测时的表现,用于评估模型在未见数据上的泛化能力。metrics/precision(B):精确度(Precision)指标,它表示在所有模型预测为正类的边界框中,实际上为正类的比例。metrics/recall(B):召回率(Recall)指标,它表示在所有实际为正类的边界框中,被模型正确预测为正类的比例。

2024-11-23 23:41:52 2288

原创 机器学习超全数据集汇总

在构造数据集的时候,要注意做好数据的清洗和标注,一个高质量的数据集往往能够提高模型训练的质量和预测的准确率。模型的选择、构建很重要,训练数据对模型也是非常重要的,在改变模型架构来尝试提高模型预测准确率的同时,也需要注意提高输入数据的质量,同时也考虑增加输入数据的数量,看是否能够提高模型的预测效果。处理大量杂乱的功能是挑战的一部分。与您的保险代理人一起推理是您最不想花费时间或精力的地方,这就是为什么美国个人保险公司Allstate不断寻求新的想法来改善他们为他们所保护的超过1600万个家庭提供的理赔服务。

2024-11-22 23:54:44 1110

原创 全球超过38000个大坝地理数据集发布

此外,随着人口增长和粮食需求的上升,预计未来几十年将建造更多和更大的大坝,尤其是在低收入国家,这些国家目前建造的大坝较少。每个国家大坝的数量(用黄色到红色的颜色渐变表示)和单个大坝的位置(用蓝色点表示),以及陆地流域汇入大坝的区域(用蓝色表示)。GOODD数据库使得进行更广泛和改进的全球分析成为可能,这些分析涉及大坝对社会和环境的影响,以及环境变化对大坝集水区的影响。通过提供大坝及其集水区的详细信息,GOODD有助于更好地理解和管理与大坝相关的环境和社会问题,同时也为未来的大坝规划和建设提供了科学依据。

2024-11-21 23:58:41 678

原创 sklearn中常用数据集简介

scikit-learn库中提供了包括分类、回归、聚类、降维等多种机器学习任务所需的常用数据集,方便进行实验和研究,它们主要被封装在中,本文对其中一些常用的数据集进行简单的介绍。

2024-11-21 23:39:11 2080

原创 微调模型缺乏数据,使用现有大模型批量构建高质量数据

而在第二次输出的指令-输出对中,由于缺乏了参考的示例样本,该大语言模型跳过了中间的分析推理步骤,直接给出了列式计算的答案,但是答案并不正确。为了解决这些问题,提出一种基于大语言模型上下文学习的指令微调数据构建方法,全自动地从数据库中挖掘出和应用场景高度相关的原始素材,大语言模型凭借强大的上下文学习能力可以从示例样本和原始素材中快速构建出高质量的指令-输出对,形成种类多样、内容翔实的指令微调数据集,有力地提升了指令数据的数量、质量、可控性,基于这些指令数据微调后的模型其性能表现也得到了大幅增强。

2024-11-20 23:58:26 657

原创 针对AI增强图像大规模鲁棒性测试的数据集

该数据集利用多种增强技术和扩散模型,生成了具有不同扰动级别和数据分布的图像,每张增强图像都附带详细的元数据,包括源数据分布、增强技术、变化幅度等信息,从而为检测器的性能评估提供了丰富的上下文信息。其中,详细介绍了SEMI-TRUTHS数据集的构建,包括真实图像和AI增强图像的收集、增强技术的多样性以及数据分布的广泛性,描述了如何通过改变图像区域的大小和语义变化的程度来量化图像增强的幅度。现有的先进检测器对于不同类型的扰动、数据分布和增强方法表现出不同的敏感性,这为理解检测器的性能和局限性提供了新的视角。

2024-11-20 23:37:51 773

原创 为自动驾驶提供高分辨率卫星图像数据,实例级标注数据集OpenSatMap

只是不可避免的,卫星图像数据集的分辨率与精度普遍较低,常见的 19 级卫星图像的分辨率为每像素 30 厘米,几乎无法辨认出 20 厘米宽的车道线。此前,已经有一部分方法在尝试解决这一问题,比较有代表性的有 MIT 团队此前提出的 RoadTracer,它利用迭代图构造方式检测卫星影像中的路网,提高了测绘的准确率,但依然有所不足。在语义级别的评估中,基线模型的平均交并比表现相对较高,但在实例级检测中,AP 和 mIoU 指标的得分较低,尤其是在复杂的路况下,如线条类型变化和线条分叉合并的情况等。

2024-11-19 23:56:19 1429

原创 2003至2022年中国高精度全天候逐日气温数据集重建

本研究应用了先前开发的一种四维-时空深度森林(4D-STDF)的模型,该模型选择覆盖中国2003年以来2461个站点的地面高密度观测网络提供的观测数据作为真值,整合了12个多源因素,包括静态和动态参数(如1公里逐日短波辐射和地表温度等卫星遥感产品),及六个精细化的时空因素,以生成三个高精准的空气温度数据集:每日最高温度(Tmax)、最低温度(Tmin)和平均温度(Tmean),时间范围覆盖2003年至2022年,空间分辨率为1公里。在高海拔地区,如青藏高原,Tmax值最低,温度约为15°C。

2024-11-19 23:37:46 1195

原创 基于深度学习的点云分割网络及点云分割数据集

整体的PointNet网络中,除了点云的感知以外,还有T-Net,即3D空间变换矩阵预测网络,这主要是由于点云分类的旋转不变性,当一个N×D在N的维度上随意的打乱之后,其表述的其实是同一个物体,因此针对点云的置换不变性,其设计的网络必须是一个对称的函数。这时对于每一个点,都有一个1024维的向量表征,而这样的向量表征对于一个3维的点云明显是冗余的,因此这个时候引入最大池化操作,将1024维所有通道上都只保留最大的那一个,这样得到的1×1024的向量就是N个点云的全局特征。

2024-11-18 23:58:40 1762

原创 数据集论文:面向深度学习的土地利用场景分类与变化检测

为了保证MtSCCD数据集中土地利用场景图像的多样性以便更好地评估土地利用场景分类与变化检测算法,本文选择杭州、合肥、南京、上海和武汉5个城市中心区域的高分影像作为数据源,并且每个城市的数据均包含同区域两个时相的影像。高分辨率影像来自World Imagery (https ://livingatlas.arcgis.com/wayback),空间分辨率大约为1 m,包括R、G、B这3个波段。

2024-11-18 23:43:03 1528 1

原创 COCO数据集升级,新一代数据集COCONut

除了提出一个更好的训练集,研究者还发现现有的验证集不能很好的体现模型性能的提升,因此本文还提出了一个更加富有挑战性的、可以反映模型的提升的测试集,命名为 COCONut-val. 从下表可以看到,仅替换数据集,更高精度的训练集可以带来模型很大的提升,例如在全景分割上达到超过 4 个点的 PQ。然而目前现有的数据集存在规模和精度的矛盾,例如 SA-1B 数据集中 99.1% 的 mask 都是机器生成的,但没有赋予语义的标签,而其他一些公开数据集也同样存在精度问题并且这些数据集的规模一般都比较小。

2024-11-17 21:40:33 1129

原创 助力模型训练,深度学习的经典数据集介绍

想要训练出效果好的模型,高质量的数据集必不可少。深度学习的经典数据集包括MNIST手写数字数据集、Fashion MNIST数据集、CIFAR-10和CIFAR-100数据集、ILSVRC竞赛的ImageNet数据集、用于检测和分割的PASCAL VOC和COCO数据集等,本文将对这些数据集进行介绍。MNIST数据集包含了60000个训练集和10000个的测试集,每个手写数字的图像的大小均为28*28。

2024-11-17 21:08:41 635

原创 使用OpenCV GUI为目标检测模型创建更好的数据集

在深度学习中数据是最关键的,如果没有合适的数据,想要取得好的结果是非常困难的。通常从随机检查数据集开始,检查图像的质量,并观察对象的分布。如果一切都看起来可以接受,就训练一个小模型,在评估结果之后,通常可以理解数据是否需要清理或是否可以用于训练。如果用户决定图像是合适的,图像和标签将被复制到另一个文件夹中,稍后将用于训练;如果直接从互联网上下载数据集,需要进行检查,因为可能会有无关的图像、错误的标签或低质量的图像。使用此GUI,用户可以将不同的数据集合并到一个文件夹中,并为其选择最佳图像。

2024-11-16 22:33:08 449

原创 为深度学习创建并维护最佳数据集

当训练一个模型来检测特定的特征或物体时,这些特征或物体可能会从不同的角度被相机捕捉到,这时候需要大的数据集,以便为模型提供需要寻找的目标的大量范本。例如,一个用位于阳光直射下的物体的图像训练的模型,如果用这个模型去分析不是在阳光直射下的物体的图像(相比之下要暗得多),该模型的准确性可能会降低。在太少和太多的样本之间取得适当的平衡是至关重要的,所掌握的数据集有限在工业环境中是很常见的,特别是对于那些需要用制造现场产生的缺陷样本进行训练的模型而言,确实很难收集充足的缺陷样本,这是一个很大的挑战。

2024-11-16 22:23:19 776

原创 GeoPlant: 大型植物物种预测数据集

本文的数据集GeoPlant是一个欧洲尺度的植物物种分布数据集,它包含多个类型的数据,涵盖环境变量、遥感影像、气候数据等。GeoPlant数据集的主要任务是物种分布建模(Species Distribution Modeling,SDM),具体目标是预测特定位置的植物物种组成。简单来说就是,给定某个地理坐标,利用环境特征和遥感数据,模型需要预测该位置可能存在的植物物种。存在-缺失(Presence-Absence, PA)数据:约9万条记录,由专业植物学家在指定小区域内(通常10-400平方米)采集。

2024-11-15 21:00:00 958

原创 ColumnTransformer:处理异质数据的利器

ColumnTransformer 是提供的一种用于对不同类型数据进行处理的工具,它允许对数据集中的不同列(或特征)应用不同的预处理步骤。例如,可以对数值型特征使用标准化,对类别型特征使用独热编码,对文本特征使用TF-IDF等。简单来说,ColumnTransformer 就是一个“列级别的转换器”,它可以对每一列应用特定的转换步骤,并且将这些转换后的列合并成一个新的特征矩阵。

2024-11-15 20:00:00 917

原创 数据集转换:为模型准备高质量的数据

数据集转换是指对原始数据进行一系列变换和预处理,使其更适合用于机器学习模型的训练和测试。这些转换可以帮助我们解决数据中的噪声、偏差和不一致性等问题。常见的数据集转换包括数据清洗、特征缩放、特征编码、数据增强等。例如,在图像分类任务中,数据集转换可能包括对图像进行裁剪、旋转、缩放等处理;在文本分类任务中,则可能需要对文本进行分词、去除停用词等预处理。

2024-11-14 23:58:50 1016

原创 高效加载和处理数据集的工具

数据集加载工具是一组专门用于从磁盘或远程服务器加载数据集的工具。这些工具通常会提供常见的数据集接口,使得数据科学家能够轻松地加载标准数据集(如IrisWineBoston房价数据集等),并进行后续处理。在pandas等流行库中,都提供了相关的数据加载功能,帮助用户快速加载并准备数据集,使得他们能够专注于模型构建和优化。

2024-11-14 23:43:09 1050

原创 真实世界数据集:走进真实数据,开启机器学习应用

真实世界数据集指的是基于真实世界收集的数据集,这些数据集通常包含大量样本、复杂的特征,以及可能存在的缺失值、噪声等问题。不同于玩具数据集,真实世界数据集往往涉及复杂的业务逻辑和多样化的数据信息,因此在处理时会面临更多的挑战,但它们也更接近于实际应用场景。真实世界数据集具有以下特点:• 复杂性:数据结构复杂,往往包含不同类型的特征,甚至是多种数据格式的组合。• 规模大:样本量通常较大,适用于训练复杂的模型,但也对计算资源提出了更高的要求。

2024-11-13 23:36:25 1429

原创 玩具数据集:轻松上手机器学习的起步数据集

玩具数据集通常是一些规模较小、结构简单的数据集,主要用于教学、实验或验证机器学习算法的效果。它们的数据量通常比较小,特征数目也不多,因此可以很方便地在本地机器上运行,并且能够直观地展示算法的基本原理和性能。玩具数据集通常具备以下特点:• 简单:数据结构简单,通常没有太多复杂的特征关系,易于理解。• 小规模:数据集通常比较小,适合用来快速实验和测试算法。• 通用性:这些数据集通常被广泛使用,是各类机器学习教材和在线教程的标准示例。

2024-11-13 22:53:21 1052

原创 生成数据集:从零开始,定制属于你的数据

生成数据集是通过某些算法或程序创建的数据集。这些数据集可以具有特定的结构、分布和特征,从而帮助我们模拟现实世界中的各种场景或实验环境。生成数据集通常用于以下几种情况:数据不足:当我们缺乏足够的真实数据来训练模型或进行实验时,可以通过生成数据集来弥补数据不足的问题。数据隐私问题:在某些领域(如医疗、金融等),由于隐私和法律合规性要求,真实数据不可公开使用。这时,通过生成数据集,我们可以模拟数据的分布,进行模型训练和验证。算法验证:生成数据集可以用来验证机器学习算法的效果,尤其是在算法的初步验证阶段。

2024-11-12 21:30:20 1722

原创 前沿观察:突破场景限制的机器人通用操作数据集

相比之下,机器人领域的数据集往往规模较小,且多在实验室等受控环境中采集,这极大限制了机器人系统的泛化能力。实验显示,场景多样性是DROID提高模型性能的核心因素,即使在数据集规模相同的情况下,DROID的多场景版本在OOD任务中的表现更优于少场景版本,进一步验证了场景多样性对于构建机器人操作数据集的重要性。DROID包含了76,000个操作轨迹(约350小时的交互数据),涵盖564个不同场景、86种任务类型,由来自13个研究机构的50名数据采集人员部署了18台机器人系统,在12个月内完成了数据采集。

2024-11-12 00:02:29 1156

原创 2000-2023年全球0.05°日光诱导叶绿素荧光数据集(附代码)

基于离散 OCO-2 SIF 探测、中分辨率成像光谱仪 (MODIS) 遥感数据和气象再分析数据,使用数据驱动方法开发了 2000-2020 年期间具有高空间和时间分辨率(即 0.05°,8 天)的全球“OCO-2”SIF 数据集 (GOSIF)。我们的产品还使我们能够检查全球 SIF 的长期趋势。最近,一些研究评估了轨道碳观测站-2 (OCO-2) 的 SIF 检索在利用 OCO-2 的离散 SIF 探测和涡流协方差 (EC) 通量塔的 GPP 数据估算 GPP 方面的潜力。

2024-11-11 17:40:24 963 1

包含多种水果的图像识别与检测数据集

深度学习数据集,可用于水果识别与检测,已打好标签,文件包含图片和对应的标签,水果类型有苹果、香蕉、橙子、柠檬、猕猴桃,已将标签转换为txt文件,可以实现较高精确度的图像识别和分类。

2024-11-17

深度学习数据集:猫狗图像识别与分类

深度学习数据集,可用于猫狗图像分类,图像已分为验证集和训练集,验证集包含12500张图片,训练集包含25000张图片,数据量十分丰富,可以实现较高精确度的图像识别和分类。

2024-11-13

手势识别目标检测部分数据集

手势识别目标检测部分数据集,labelme格式,已打好标签,图片超2000张。

2024-11-13

宾夕法尼亚大学计算机自然语言工具包

宾夕法尼亚大学计算机和信息科学自然语言工具包,使用python语言实现,其收集的数据集和模型提供全面、易用的接口,涵盖分词、词性标注、命名实体识别(NER)、句法分析等各项NLP领域的功能。

2024-11-11

可用于图像分类的食物数据集

可用于图像分类的食物数据集,包含各种高清美食图片,数量超过5000张。

2024-11-11

情感分析之文本分类-千言数据集

情感分析旨在自动识别和提取文本中的倾向、立场、评价、观点等主观信息,千言数据集中句子级情感分类和评价对象级情感分类任务上共包含四个数据集。 句子级情感分类:中国科学院的ChnSentiCorp、苏州大学的NLPCC14-SC 评价对象级情感分类:哈尔滨工业大学的SE-ABSA16_PHNS、哈尔滨工业大学的SE-ABSA16_CAME

2024-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除