1、模型表示
监督学习是对于每个数据,给出了正确的答案。对于上面房价预测列子来说,根据我们给的数据,房子的实际价格是多少。预测出的是一个准确的输出值。
监督学习中,数据集被称为训练集。
m :表示训练样本的数量
x :表示输入变量,也被称为特征值
y :表示输出变量或目标变量
(x,y) :表示一个训练样本,为了表示某个训练样本,可使用x(i)和y(i)具体表示,其中i是上标,表示第i个训练样本。
监督学习问题:
我们的目标是,给定一个训练集,学习函数h : X → Y,h(x)是对应于y值的一个好的预测。
h :代表hypothesis(假设),表示一个函数,h根据输入的x值得出y值。因此h是一个从x到y的函数映射。
hθ(x)=θ₀+θ₁x (y关于x的线性函数),hθ(x)可简写为h(x)。
当我们试图预测的目标变量是连续的时(列如给定居住面积,预测房屋的价格),称该学习问题为回归问题。当y只能取少量离散值时(列如给定居住面积,预测是住宅还是公寓),称之为分类问题。