【机器学习课程】第二章数据准备 1.数据获取

真正的教育是把学校学的东西都忘掉后剩下的。——爱因斯坦

第二章 数据准备 1.数据获取

1.数据获取

1.1 非技术手段获取方法。

可以通过线下访谈,头脑风暴,调查问卷的方法获取数据。

1.2 技术手段获取方法。

通过爬虫手段,在线上收集数据资源,爬取图片,文本,微博,股票等数据。

1.3 数据集下载

机构门户网站数据集下载:

在这里插入图片描述

中国国家统计局

美国政府公开数据

印度政府公开数据

世界银行公开数据

联合国数据

竞赛平台与企业平台数据获取

机器学习最著名的数据存储库:
UC-Machine-Learning-Repository

在这里插入图片描述

Kaggle-全球最大的数据竞赛平台:
Kaggle

在这里插入图片描述

天池-阿里旗下数据科学竞赛平台:
天池
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TuyFxoDc-1661486988327)(en-resource://database/789:1)]

DataCastle-专业的数据科学竞赛平台DataCastle

亚马逊数据集

微软数据集

机器学习数据集:

The MNIST Database
最流行的图像识别数据集,使用手写数字。它包括6万个示例和1万个示例的测试集。这通常是第一个进行图像识别的数据集。

Chars74K
这里是下一阶段的进化,如果你已经通过了手写的数字。该数据集包括自然图像中的字符识别。数据集包含74,000个图像,因此数据集的名称。

Frontal Face Images
如果你已经完成了前两个项目,并且能够识别数字和字符,这是图像识别中的下一个挑战级别——正面人脸图像。这些图像是由CMU & MIT收集的,排列在四个文件夹中。

ImageNet
通用物品识别数据集。根据WordNet层次结构组织的图像数据库(目前仅为名词)。层次结构的每个节点都由数百个图像描述。目前,该集合平均每个节点有超过500个图像(而且还在增加)。
在这里插入图片描述在这里插入图片描述

Spam – Non Spam
区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。

Twitter Sentiment Analysis该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。

Movie Review Data
这个网站提供了一系列的电影评论文件,这些文件标注了他们的总体情绪极性(正面或负面)或主观评价(例如,“两个半明星”)和对其主观性地位(主观或客观)或极性的标签。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值