西瓜书详解1-----常用术语

1.常用术语

1.数据集(data set):其中每个单元称为一个示例(instance)或样本(sample)。比如我们要做果蔬识别系统,我们的西瓜数据集里面就有很多西瓜的图片,每个西瓜的图片都可以称为一个样本。但是有时我们也将一整个数据集称为样本,因为西瓜数据集其实也是果蔬的一部分。
2.属性(atrribute)和特征(feature):来自于示例或者样本的抽象特点。
3.属性空间(atrribute space)和样本空间(sample space)也叫输入空间:多个属性和特征值在空间上组合成的多维信息。比如 x坐标:外部颜色;y坐标:内部颜色;z坐标:形状。它的特点是,任何的样本都可以放入这个坐标系中,形成一个特征向量(feature vector)
4.数学表达:
(1)数据集D={x1,x2,x3...xm}\{x_1,x_2,x_3...x_m\}{x1,x2,x3...xm} 表示有m个样本的数据集。
(2)特征向量:x1...xi...xmx_1...x_i...x_mx1...xi...xm 其实是特征向量,其维度(dimensionality)就是其属性空间中属性的个数,其中xi={xi1xi2...xid}\mathbf{x_i}=\{x_{i1}x_{i2}...x_{id}\}xi={xi1xi2...xid},可以用xijx_{ij}xij来定位第i个样本的第j个属性。
5.训练(training)或学习(learning):使用某种算法从数据集中获得模型的过程,模型也称为学习器(learner),它是学习算法在给定的数据空间上的实例化。
6.学习的过程:学习算法在训练集上进行训练,获得的一个模型,这个模型称为假设(hypothesis),获得假设以后在测试集上验证。我们将客观存在的真实规律称之为真相(ground- truth),假设在测试集上的验证结果越好则越接近真相。
7.标签(label):也称为标记,比如要做图片分类,我们就给每张西瓜图片记上西瓜的标签。一个样本也可以被打上多个标记,比如(xi,yi)(x_i,y_i)(xi,yi),其中x是属性值,y是标签值:比如好瓜,麒麟瓜等,标签是人为打的。因为模型的目标也是获得任意一个图片的标签,所以y也称为标记空间(label space)或者输出空间
8.分类任务(classification):用于预测离散的值
9.回归任务(regression):预测的是连续的值,比如西瓜的成熟程度。
10.聚类任务(clustering):把一堆不同的图片按各自的图片分组,提前不用打标签,每一个组称为一个簇(cluster)
11.监督学习(supervised learning)和无监督学习(unsupervised learning):需要打标签就是有监督学习,包括分类和回归两种,不用打标签就是无监督学习,主要是聚类任务。
12.泛化性(generalization):样本在测试集上的效果越好,泛化性越好。
13.==特征选择(feature selection):一个模型,它在对目标进行预测时是根据对应的特征属性进行的,但是如果有多个特征属性,它们在进行预测的时候会互相冲突,导致难以获得正确的结果,所以还要设置一个归纳偏好(inductive bias)==具体如何设置后面会再说。

2.注意

首先,机器学习的目的不是解决所有的问题,因为总是存在一部分特例,比如戴着西瓜帽子的篮球不是西瓜,但是仍然会被认为是西瓜,所以,机器学习的目标在于找到能解决大部分问题的模型。
其次,特征值很多,但是又没有设置偏好时,预测结果其实根本就不会有效果(实践证明啥也预测不出来),所以在特征值多的时候必须设置偏好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值