人工智能的无名英雄就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,那么深度学习数据集怎么找?本文介绍了我在深度学习科研中(不是工程实践)寻找数据集的方法。仅供参考,欢迎指正。
深度学习数据集怎么找?
这个问题可以等价为:如何判断一个数据集是否合适使用?
通常“找数据集”和“找课题、方向”是相辅相成的(如果希望自己的代码有横向对比)
1.确定大致方向
2.浏览一下该方向最知名的数据集的形式
3.确定一个具体方向,并保证至少有一个数据集可用
- 何为可用?
- 数据量是否够大
- 数据集是否够新(5年内,除非是理论研究)
- 是否足够多人使用(论文)
- 数据采集是否合理
- 标注格式是否好用
- 问题场景是否满足研究要求
- 数据是否可以下载
4.寻找更多的数据集,当有3个或更多数据集的时候
- 判断其他课题是否已经使用其中的数据集,尽量选择共同数据集
- 判断数据集的标注是否支持更多的任务,尽量选择多任务数据集
- 判断实验室的算力和自己算法的性能是否可以驱动这个数据集
- 判断哪个的问题场景最贴切
- 判断数据集近年来的指标上升速度是否够快(10%+/年是理想状态,5%+/年则可做,新数据集也可做)
免费分享一些我整理的人工智能学习资料给大家,包括一些AI常用框架实战视频、图像识别、OpenCV、NLQ、机器学习、pytorch、计算机视觉、深度学习与神经网络等视频、课件源码、国内外知名精华资源、AI热门论文、行业报告等。
为了更好的系统学习AI,推荐大家收藏一份。
下面是部分截图,文末附免费下载方式。
一、人工智能课程及项目
二、国内外知名精华资源
三、人工智能论文合集
四、人工智能行业报告
学好人工智能,要多看书,多动手,多实践,要想提高自己的水平,一定要学会沉下心来慢慢的系统学习,最终才能有所收获。