Andrew Ng的公开课机器学习
线性回归中我们建立了一个线性模型 h(x(i))=θTx(i) ,并计算误差函数 J(θ)=∑mi=1(h(x(i))−y(i))2=∑mi=1(θTx(i)−y(i))2
为了选择合适的 θ 使得 J(θ) 最小,我们可以采取两种方法:
1.梯度下降法
2.最小二乘法
具体的在上一节中已有讲述。
本文从概率上解释,为何在计算 J(θ) 时,我们选择预测值与实际值差值的平方作为误差衡量?
实质上,这是我们认为误差满足高斯分布时的极大似然估计。
假设样本的实际关系为 y(i)=θTx(i)+ϵ(i)