作者:PRANAV DAR
翻译:Nicola
校对:冯羽
本文共4000字,建议阅读8分钟。
本文介绍了图像处理,自然语言处理,以及音频/语音处理三类25个开源数据集。
简介
深度学习(或生活中的大部分领域)的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。
但是,哪里可以获得这些数据?现今你看到的很多研究论文都使用通常不向公众开放的专有数据集。而这成为了如果你学习并应用你新掌握的技能的阻碍。
如果你也遇到此问题,我们有解决方案提供给你。我们挑选了一系列公开可用的数据集供各位详细阅读。
在本文中,我们列出了一系列高质量的数据集,每个深度学习爱好者都可以应用和改进他们的技能。使用这些数据集将使你成为一名更好的数据科学家,同时你所学到的知识将对你的职业生涯产生无价的帮助。我们还收录了具有最新技术(SOTA)结果的论文供你浏览并改进你的模型。
如何使用这些数据集
首先要做的事-这些数据集的容量相当大!所以请确保你的网络是高速的、不限流量或有很多流量地下载数据。
有很多种可以使用这些数据集的方式。你可以使用它们来应用各种深度学习技巧。也可以使用它们来磨练你的技能,了解如何识别和构建每个问题,思考独特的使用案例并展示给所有人你的发现,让大家都可以看到!
这些数据集分为三类-图像处理,自然语言处理,以及音频/语音处理。
让我们开始更深入的了解!
图像处理
MNIST
MNIST是最受欢迎的深度学习数据集之一。这是一个手写数字数据集,包含一组60,000个示例的训练集和一组10,000个示例的测试集。这是一个对于在实际数据中尝试学习技术和深度识别模式的很好的数据库,同时尝试学习如何在数据预处理中花费最少的时间和精力。
大小:〜50 MB
记录数量:分为10个类别的70,000个图片
SOTA:Dynamic Routing Between Capsules
MS-COCO
COCO是一个规模大且丰富的物体检测,分割和字幕数据集。它有几个特点:
物体分割
文中识别
超像素物质分割
330K图像(> 200K标记)
150万个物体实例
80个物体类别
91个物质类别
每张图片5个字幕
250,000有关键点的人
大小:〜25 GB(压缩)
记录数量:330K图像,80个物体类别,每幅图像5个字幕,250,000个有关键点的人
SOTA:Mask R-CNN
ImageNet
ImageNet是依据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个短语,ImageNet提供了平均大约1000个图像来说明每个短语。
大小:〜150GB
记录数量:图像总数:〜1,500,000;每个都有多个边界框和相应的类标签
SOTA:Aggregated Residual Transformations for Deep Neural Networks
Open Images Dataset