线性回归与分类
1、最小二乘的原则是什么?写出多元线性回归的参数估计
最小二乘法指基于均方误差最小化来进行模型求解的方法,故最小二乘的原则是:均方误差最小。
2、“对数几率”回归和“线性”回归的区别和联系。
对数几率回归是考虑到二分类问题引入的一种方法。
理想状态下是阶跃函数完成二分类:
y = { 0 , z < 0 0.5 , z = 0 1 , z > 0 y = \left\{ \begin{array}{rcl} 0, & & {z < 0}\\ 0.5, & & {z = 0}\\ 1, & & {z > 0}\\ \end{array} \right. y=⎩⎨⎧0,0.5,1,z<0z=0z>0
然而阶跃函数不可导,可以用对数几率函数代替,也就是令:
y = 1 1 + e − z y =\frac{1}{1+e^{-z}} y=1+e−z1
其中 z z z是线性模型的预测值,这是一种Sigmoid函数。上式可以变化为:
ln y 1 − y = z = w T x + b \ln\frac{y}{1-y} =z=\bm{w}^T\bm{x}+b ln1−yy=z=wTx+b
可以将上式中 y y y 视为 x \bm{x} x为正例的几率,( 1 − y 1-y 1−y) 视为 x \bm{x} x为反例的几率,两者的比值成为几率,对几率取对数便得到对数几率。实际上,上式对应的模型是用线性回归的结果逼近真实标记的对数几率,所以称为对数几率回归,它实际是一种分类学习方法。
联系:它们都是用的广义线性回归的模型。
区别:对数几率回归用来完成二分类任务,线性回归完成回归任务。
3、用最小二乘法估计对数几率回归的参数
对数几率回归的模型为:
f ( x ) = 1 1 + e − ( w T x + b ) f(x) =\frac{1}{1+e^{-(\bm{w}^T\bm{x}+b)}} f(x)=1+e−(wTx+b)1
使模型求出的 f ( x ) f(x) f(x) 与真实分类 y y y 之间的均方误差最小:
m i n ∑ i = 1 m ( f ( x i ) − y i ) 2 ⇒ ( w , b ) = arg min ∑ i = 1 m ( f ( x i ) − y i ) 2 min \sum^m_{i=1}(f(x_{i})-y_{i})^2 \Rightarrow (\bm w, b) = \arg \min\sum^m_{i=1}(f(x_{i})-y_{i}) ^2 mini=1∑m(f(xi)−yi)2⇒(w,b)=argmini=1∑