之前在学的时候,看到李航的书一直强调统计学习方法三要素:模型、策略、算法,模模糊糊的,看了好几遍才明白,记录一下。
I. 模型
简单一点理解就是选择决策模型和概率模型,二选一。
决策模型主要是要拿到决策函数 Y = f ( X ) Y=f(X) Y=f(X),概率模型主要是拿到条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)。至于二者有啥区别,自行百度。
II. 策略
简单理解为损失函数(loss function)即可,风险函数是个啥,没闹明白。
损失函数常用的一般有以下四种:
- 0-1损失函数(0-1 loss function)
L ( Y , f ( X ) ) = { 0 , Y = f ( X ) 1 , Y ≠ f ( X ) L(Y,f(X)) = \begin{cases} 0, & Y = f(X) \\[4ex] 1, & Y \neq f(X) \end{cases} L(Y,f(X))=⎩⎪⎨⎪⎧0,1,Y=f(X)Y=f(X)
这个最容易理解,对于 N N N个样本,预测错的就取1,然后把所有1加起来,设为 m m m,则模型精度就为 m N \frac m N Nm。
- 平方损失函数(quadratic loss function)
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X)) = (Y - f(X))^2 L(Y,f(X))=(Y−f(X))2
理解不了就当方差理解完事,没毛病。
- 绝对损失函数(absolute loss function)
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ 2 L(Y,f(X)) = |Y - f(X)|^2 L(Y,f(X))=∣Y−f(X)∣2
粗暴的当标准差理解。
- 对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)
L ( Y , f ( X ) ) = − l o g P ( Y ∣ X ) L(Y,f(X)) = -logP(Y|X) L(Y,f(X))=−logP(Y∣X)
就是最大似然估计。
风险函数是个啥,没搞明白就不写了。
III. 算法
算法就是算法啦。