机器学习基础-13: ML经典数据集

本文汇总了机器学习领域的经典数据集,涵盖图像、视频、音频及综合数据集,包括ImageNet、Tiny、Flickr等知名图像数据集,以及AudioSet、TED-LIUM等音频数据集,是学习和研究机器学习不可或缺的资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ML经典数据集

机器学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读!

1 图像数据集

2 视频数据集

CDVL(TheConsumer Digital Video Library) 消费者数字视频库对外提供高质量的源视频序列,可供研究和开发免费使用。CDVL还托管了几个视频质量数据集,包括五个VQEG HD Phase I数据集,BVI-HD,CCRIQ,its4s和T1A1。

LIVE database 出自德克萨斯大学的图像&视频工程实验室。该实验室的视觉科学家和视频工程师对图片和视频质量进行大规模主观和客观研究,对相关数据库做了严格的视觉检测/筛选。该数据库包含15+细分的自数据库。该数据库还包含若干视频质量评估的背景知识。

IVC数据库包含图像质量评价和视频质量评价数据库。IVC数据库由法国南特大学(Université de Nantes)的南特通信与网络研究所主持构建和维护。南特通信与网络研究所在图像&视频质量评价、离散信息表示、人类世界感知、机器学习和模式识别、网络和系统等方面具有深刻而广泛的研究。

3 音频数据集

谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。

2000 HUB5 English Evaluation Transcripts由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。

TED-LIUM是TED Talk的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。

4 综合数据集

系列文章

参考文献

  • [1] 周志华. 机器学习. 清华大学出版社. 2016.
  • [2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
  • [3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.
### 时间序列图像分类数据集 时间序列图像分类涉及将时间维度引入到图像分析中,这使得该领域具有独特的挑战性和应用价值。为了支持这一研究方向的发展,多个公开可用的时间序列图像分类数据集已经发布。 #### 1. UCR Time Series Archive UCR Time Series Classification/Clustering Repository 是一个广泛使用的资源库,其中包含了多种不同类型的时间序列数据集[^1]。尽管这些数据集主要用于传统的一维时间序列分类任务,部分也可以通过适当预处理转化为二维或三维表示形式用于图像分类任务。 #### 2. PhysioNet Challenge Datasets PhysioNet 提供了一系列与生理信号相关的竞赛数据集,特别是ECG 和 EEG 数据集非常适合用来探索时间序列图像分类方法的应用场景。例如,在心电图(ECG) 中,可以将每个心跳周期可视化成一张图片来训练卷积神经网络(CNN),从而实现自动诊断功能。 #### 3. MTS DataSets (Multivariate Time Series) 对于多变量时间序列(Multivariate Time Series), 可以考虑使用如FordA, FordB这样的经典数据集来进行实验。这类数据通常包含多个传感器采集的信息随时间变化的情况,能够很好地模拟现实世界中的复杂动态过程并将其映射为静态视觉模式进行学习和识别[^5]。 #### Python代码示例:加载并展示来自UCR档案馆的一个简单例子 ```python from tslearn.datasets import UCR_UEA_datasets import matplotlib.pyplot as plt dataset_name = "GunPoint" X_train, y_train, X_test, y_test = UCR_UEA_datasets().load_dataset(dataset_name) plt.figure(figsize=(8,6)) for i in range(3): plt.subplot(3, 1, i+1) plt.plot(X_train[i].ravel()) plt.title(f'Class {y_train[i]}') plt.tight_layout() plt.show() ``` 此段代码展示了如何利用`tslearn`库从UCR数据库下载指定名称的数据集,并绘制前三个样本作为代表性的图形输出。虽然这里只显示了一维曲线图,但在实际操作过程中可以根据具体需求调整参数或将它们进一步加工成为更复杂的图像结构以便于后续的CNN或其他深度学习框架下的分类任务。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值