在学习有监督机器学习模型之前,我们需要使用一些约定的符号来对模型进行表示,这些符号主要如下:
-
输入变量(或输入特征):x(i)x^{(i)}x(i)
-
输出变量(或目标变量):y(i)y^{(i)}y(i)
-
特征变量(也叫属性或特征):[x1(i),x2(i),...,xj(i),...,xn(i)][x_{1}^{(i)},x_{2}^{(i)},...,x_{j}^{(i)},...,x_{n}^{(i)}][x1(i),x2(i),...,xj(i),...,xn(i)],其中xj(i)x_{j}^{(i)}xj(i)称为第j个特征变量
-
第i条训练样本:(x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i))
-
训练集(m条样本的集合):(x(i),y(i))(i=1,2,...,m)(x^{(i)},y^{(i)}) (i=1,2,...,m)(x(i),y(i))(i=1,2,...,m)
-
输入、输出值的空间:X,Y=RX,Y={R}X,Y=R,X,YX,YX,Y都是n维实数空间
-
假设函数:hθ(x)h_{\theta}(x)hθ(x),例如hθ(x)=θ0+θ1xh_{\theta}(x)={\theta}_{0}+{\theta}_{1}xhθ(x)=θ0+θ1x
有监督学习的目标是,给定一个训练集,学习一个函数:h:x→yh: x{\rightarrow}yh:x→y,使得hθ(x)h_{\theta}(x)hθ(x)能很好的预测相应的y值,其过程如下所示:
-
当目标变量为离散型(标称型)数据时,我们称这样的学习问题为分类问题;
-
当目标变量为连续型(数值型)数据时,这样的问题惩治为回归问题,比如根据房子的尺寸预测房子的的价格