真正的教育是把学校学的东西都忘掉后剩下的。——爱因斯坦
第二章 数据准备 1.数据获取
1.数据获取
1.1 非技术手段获取方法。
可以通过线下访谈,头脑风暴,调查问卷的方法获取数据。
1.2 技术手段获取方法。
通过爬虫手段,在线上收集数据资源,爬取图片,文本,微博,股票等数据。
1.3 数据集下载
机构门户网站数据集下载:
竞赛平台与企业平台数据获取
机器学习最著名的数据存储库:
UC-Machine-Learning-Repository
Kaggle-全球最大的数据竞赛平台:
Kaggle
天池-阿里旗下数据科学竞赛平台:
天池
DataCastle-专业的数据科学竞赛平台DataCastle
机器学习数据集:
The MNIST Database
最流行的图像识别数据集,使用手写数字。它包括6万个示例和1万个示例的测试集。这通常是第一个进行图像识别的数据集。
Chars74K
这里是下一阶段的进化,如果你已经通过了手写的数字。该数据集包括自然图像中的字符识别。数据集包含74,000个图像,因此数据集的名称。
Frontal Face Images
如果你已经完成了前两个项目,并且能够识别数字和字符,这是图像识别中的下一个挑战级别——正面人脸图像。这些图像是由CMU & MIT收集的,排列在四个文件夹中。
ImageNet
通用物品识别数据集。根据WordNet层次结构组织的图像数据库(目前仅为名词)。层次结构的每个节点都由数百个图像描述。目前,该集合平均每个节点有超过500个图像(而且还在增加)。
Spam – Non Spam
区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。
Twitter Sentiment Analysis该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。
Movie Review Data
这个网站提供了一系列的电影评论文件,这些文件标注了他们的总体情绪极性(正面或负面)或主观评价(例如,“两个半明星”)和对其主观性地位(主观或客观)或极性的标签。