NG课上是从linear regression到logistic regression的。 它们同属于广义线性模型。 logistic regression可以看做是先将输入映射到了(0,1)空间。从直观上看这种平滑是概率的需要。 sigmoid函数的推导则需要指数分布族和广义线性模型的知识。 从这一角度看,这两种算法都可以从概率分布出发去推导,而一开始讲linear regression时给出的“均方误差”【最小二乘法】的损失函数看起来是直观而且符合数学推导要求.
从而 logistic regression对应了分类问题(离散情况)[所以需要一个sigmoid函数将其映射到连续函数域上去]的伯努利分布,即独立重复试验且只有发生与不发生的情况【这是二分类的情况,如果要推导softmax的多分类算法,则需要从Multinomial——多项式分布出发去进行推导】
linear regression 对应了回归问题(连续情况) 的Gaussian 高斯分布
广义线性模型从概率分布到机器学习算法的推导恰好是使用了极大似然估计的思想。事实上,概率模型的训练过程就是参数估计(parameter estimation)过程。【见周志华书p149】
我们先假设某种确定的概率分布式,再基于训练样本对概率分布的参数进行估计。
对于参数估计,统计学派又分为两派持有不同观点[详情自行搜索]。我们在数理统计中所用的源自频率主义学派的极大似然估计(Maximum Likelihood Estimation)。
它的直观想法就是,我们根据N次实验得到了N组样本,假设这些样本是独立同分布的,则我们可以得到参数cita 对于N次实验得到的数据集的似然