数据科学:数据集与自动化任务解析
1. 数据集介绍
在数据科学领域,数据集是分析和研究的基础。数据集可分为玩具数据集和真实数据集。
1.1 玩具数据集
- 三维玩具数据集 :包括瑞士卷、两个环、两个开放盒子和球体等。其中,球体数据集可通过对从各向同性三维高斯分布中抽取的样本进行归一化生成。
- 笑脸数据集 :由形似脸部各部分的点组构成,如两个呈高斯分布的眼睛、梯形鼻子和抛物线形嘴巴。该数据集用于展示结构的局部和全局属性的保留情况。若仅考虑局部属性,脸部各部分会被保留,但它们之间的关系会被扭曲,形成类似毕加索画作中脸部的呈现效果。
1.2 真实数据集
真实数据集体现了数据科学的有效应用,通常具有较高的维度,且系统地包含一些噪声。数据点还会根据语义信息被分类。以下是一些常见的真实数据集:
| 数据集名称 | 描述 | 类别情况 | 特征数量 |
| — | — | — | — |
| 鸢尾花数据集 | 包含150个鸢尾花实例,分三个品种(山鸢尾、变色鸢尾和维吉尼亚鸢尾),由四个解剖学测量值(花瓣和萼片的宽度与长度)表征 | 三个品种各50个实例,类别平衡 | 4 |
| 葡萄酒数据集 | 178个意大利葡萄酒样本,由13种化学成分的含量表征 | 根据酿酒所用的栽培品种分为三类 | 13 |
| 油流数据集 | 通过数值模拟获得500个测量值,表征管道中油流的12个变量 | 对应油流三相(油、水和气体)的三种可能配置:“均匀”、“环形”和“分层” | 12 |