数据科学中的自动化任务与数据集分析
1. 数据集介绍
1.1 玩具数据集
存在多种类型的玩具数据集,比如:
- 瑞士卷 :具有特定的形状结构。
- 两个环 :呈现出环形的数据分布。
- 两个开放盒子 :数据具有一定的规律。
- 球体 :可通过对从各向同性三维高斯分布中抽取的样本进行归一化来生成。
- 笑脸数据集 :由类似面部各部分形状的点组构成,用于展示结构的局部和全局属性的保留情况。若仅考虑局部属性,面部各部分会被保留,但它们之间的关系会被扭曲。
1.2 真实数据集
真实数据集往往具有较高的维度,且系统地包含一些噪声,数据点还会根据语义信息被分类到不同的类别中。常见的真实数据集如下:
| 数据集名称 | 描述 | 类别情况 |
| — | — | — |
| 鸢尾花数据集 | 包含150个三种鸢尾花品种的实例,通过四个解剖学测量值来表征,每个品种有50个实例 | 三个平衡的类别 |
| 葡萄酒数据集 | 178个意大利葡萄酒样本,由13种化学成分的含量来表征,根据酿酒品种分为三个类别 | 三个类别 |
| 油流数据集 | 通过数值模拟获得500个表征管道中油流的12个变量的测量值,分为与油流三相可能配置对应的三个类别 | 三个类别 |
| 哥伦比亚物体图像库(COIL - 20) | 1440张128×128像素的灰度图片,代表20个不同物体绕垂直轴旋转拍
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



