- 数据集:样本的集合
- 特征:反映物体特性的事项
- 属性:对样本的具体描述
- 维数:特征的种类个数
- 样本空间:在维数空间中找到描述每个样本的唯一位置
- 特征向量:每个样本的全部特征
- 标签:表示每一个样本的所属类型
- 学习或训练:从数据中获得模型的过程
- 训练数据:在训练过程中所使用的数据集
- 训练样本:训练数据中的每一个样本
- 训练集:训练样本组成的集合
- 假设:找到数据中存在的某种潜在的规律
- 实际输出:当学习算法学习到某种经验以后会对输入的数据做出一个判断
- 目标输出:做出正确的判断
- 预测:学习算法f利用数据x给出实际输出O的过程抽象为数学表达式,这个过程称为预测 O=f(x)
- 损失函数(代价函数):度量实际输出与目标输出之前的偏差来量化学习模型的效果
- 迭代:计算机反复学习的过程
- 迭代次数:反复学习的次数
- 测试集:用于测试的数据集
- 过拟合:模型在训练集上表现的很好而在测试集上表现的很糟
- 欠拟合:在测试集上的表现比在训练集上的表现要好
- 泛化能力(鲁棒性):经过训练的模型对具有同一规律的学习集以外的数据也能给出合适的输出。
- 迁移学习:将以前学到的知识应用于解决新的问题,能够更快地解决问题或去的更好的效果
- 监督学习:有标签数据的学习,其代表为分类与回归
- 非监督学习:没有标签数据的学习,其代表为聚类
- 聚类:训练集中的样本自发的分为若干组