(一)、大规模数据集
(1)、图像视频数据集
1、UBUNTU对话语料库
可用于搭建一个聊天机器人,如这篇博客所示(用深度学习网络搭建一个聊天机器人)
数据集地址:https://github.com/rkadlec/ubuntu-ranking-dataset-creator
2、室内机器人和无人机训练数据(转自机器学习研究会 )
这个数据集适合于机器人SLAM(同时定位与地图创建和使用RGB-D输入预训练数据驱动的计算机视觉技术。
数据集地址:https://robotvault.bitbucket.org/scenenet-rgbd.html
论文链接:https://robotvault.bitbucket.org/SceneNetRGBD.pdf
3、谷歌发布的视频数据集Youtube-8M
该数据集包含了 800 万个 YouTube 视频 (500,000 小时的视频),4800类,以及视频层面的标签。可用于视频分析、检测和识别、视频理解。经过处理后的数据,在单GPU的机器上训练一天即可完成。
论文地址:https://arxiv.org/abs/1609.08675
数据集地址:https://research.google.com/youtube8m/
4、自动驾驶视频数据集
这个数据集是牛津大学用于自动驾驶研究的数据集。
数据库地址:http://robotcar-dataset.robots.ox.ac.uk/
论文地址:http://robotcar-dataset.robots.ox.ac.uk/images/robotcar_ijrr.pdf
5、斯坦福无人机拍摄的视频数据集(转自机器学习研究会)
这个数据集是斯坦福大学无人机拍摄的视频数据集,共69G,包含各种不同的行人、车辆等标注信息。
数据库地址:http://cvgl.stanford.edu/projects/uav_data/
论文地址:http://web.stanford.edu/~alahi/downloads/ECCV16social.pdf
6、Caltech 101目标检测数据集
这个数据集比较早,大概在2000年左右建立,李飞飞在CVPR2014的一篇论文,用过这个数据集
数据库地址:https://www.vision.caltech.edu/Image_Dataset/Caltech101/#Dowload
7、中文语音识别(清华大学)
清华大学开源的一个数据库可用于中文语音识别
数据集地址:http://thuocl.thunlp.org/
8、谷歌图像数据库
谷歌开源的图像数据库,包含900万标注数据,标签种类超过6000种。同时谷歌使用这个数据集训练了一个Inception v3模型,可以使用这个模型进行fine-tune.
数据集地址:https://github.com/openimages/dataset
9、YouTube-BoundingBoxes视频数据集
里面包含23类共500万手动标注的、紧密贴合对象边界的边界框,精度高于95%。谷歌称这是迄今最大的手动标注边界框视频数据集,可用于视频对象检测和跟踪。
数据集地址:https://research.google.com/youtube-bb/
10、用于视觉问答(VQA)的数据库
斯坦福大学李飞飞组发布的一个数据库,可用于训练视觉问答模型
数据集地址:http://cs.stanford.edu/people/jcjohns/clevr/
11、谷歌大规模音频数据集(AudioSe)
该数据集包含2100万标注视频、5800个小时的音频、527种类型的标注声音。AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。
论文地址:https://research.google.com/pubs/archive/45857.pdf
数据集地址:https://research.google.com/audioset/
12、机器人抓取和推动数据集(Grasping+Push)
2016年谷歌公布,Grasping数据集大小 650k ,主要包含抓取尝试数据,用于机器人抓取的手眼协调。Push数据集大小59k,主要包括机器人的推动,使用无监督学习进行物理交互。这两个数据集中包含了机器臂、夹具和目标的 RGB-D 视角数据、制动和位置参数。
Grasping地址:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/example.proto
Push地址:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/feature.proto
13、交通场景数据库(KITTI)
主要用于交通场景中车辆检测,车辆追踪,语义分割等
数据集地址:http://www.cvlibs.net/datasets/kitti/index.php
14、人类行为识别数据集(HMDB51和UCF101)
HMDB51地址:http://us.findeen.com/hmdb51_dataset.html
UCF101地址:http://crcv.ucf.edu/data/UCF101.php
15、转载一篇关于数据集的博客
这篇博客里面有许多数据集
博客地址:http://www.cnblogs.com/huashiyiqike/p/3778035.html
博客地址:http://www.199it.com/archives/567646.html
16、3D街景数据集
下载地址:https://github.com/amir32002/3D_Street_View
官方简介:http://3drepresentation.stanford.edu/
模型演示:https://github.com/amir32002/3D_Street_View/tree/master/3D_cities_snapshots
论文地址:http://cvgl.stanford.edu/papers/zamir_eccv16.pdf
(2)、问答系统数据集(VQA)
1、MS MARCO:人工生成的机器阅读理解数据集,来自微软,2016(转自全球人工智能)
论文地址:https://arxiv.org/abs/1611.09268
数据集地址:http://www.msmarco.org/
2、NewsQA:Maluuba 的机器理解数据集,2016
论文地址:https://arxiv.org/abs/1611.09830
数据集地址:https://github.com/Maluuba/newsqa
3、SQuAD:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016
论文地址:https://arxiv.org/abs/1606.05250
数据集地址:https://rajpurkar.github.io/SQuAD-explorer/
4、GraphQuestions:一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016
论文地址:http://suo.im/4u7oFE
数据集地址:https://github.com/ysu1989/GraphQuestions
5、Story Cloze:一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016
论文地址:https://arxiv.org/abs/1604.01696
数据集地址:http://cs.rochester.edu/nlp/rocstories/
6、SimpleQuestions:大量使用记忆网络的简单问答数据,2015
论文地址:https://arxiv.org/pdf/1506.02075v1.pdf
数据集地址:http://suo.im/2eiX0O
7、WikiQA:一个开放问题与回答的挑战数据集,由微软推出,2015
论文地址:http://suo.im/1bqPMh
数据集地址:http://suo.im/3aJVyp
8、CNN-DailyMail:用于训练机器进行阅读理解任务的数据集,2015
论文地址:https://arxiv.org/abs/1506.03340
代码地址:https://github.com/deepmind/rc-data
数据集地址:http://cs.nyu.edu/~kcho/DMQA/
9、中文完型填空数据集
数据集地址:https://github.com/ymcui/Chinese-RC-Dataset
10、中文数据集大全
数据集地址:https://github.com/PaddlePaddle/Paddle/issues/981
(3)、对话系统数据集
1、Ubuntu Dialogue Corpus:一个用于非结构化多回路对话系统研究的大型数据集,2015
论文地址:https://arxiv.org/abs/1506.08909
数据集地址:http://suo.im/2pbKCC
2、Frames:用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016
论文地址:http://suo.im/36jcl2
数据集地址:http://datasets.maluuba.com/Frames
(二)、深度学习开源模型
1、CNN模型—Inception-ResNet-v2
这个模型在ILSVRC图像分类基准测试中实现了当下(2016.9)最好的成绩。受残差网络(ResNet)的影响而提出。
论文地址:https://arxiv.org/abs/1602.07261
模型地址:http://download.tensorflow.org/models/inception_resnet_v2_2016_08_30.tar.gz
tensorflow模型下载地址:https://github.com/tensorflow/models/tree/master/slim#Pretrained
(三)、github开源项目
1、tensorflow应用于android
将tensorflow应用于android上面,实现在移动端的检测。
项目地址:https://github.com/miyosuda/TensorFlowAndroidDemo