第一章
统计学习方法三要素:模型、策略、算法。
模型
- 概率模型
伯努利模型 : 定义在取值为0,1的随机变量上的概率分布(条件概率分布)
0-1分布
p(x)=θx(1−θ)1−xp(x)=θx(1−θ)1−x ,随机变量xx只取0,1两个值- 二项分布
,表示x=1x=1发生kk次的概率, 表示每一次实验x=1x=1的概率 - 经验风险:
Remp=1N∑i=1N(L(xi,f(xi)))Remp=1N∑i=1N(L(xi,f(xi))) - 结构风险:
Rsrm=1N∑i=1N(L(xi,f(xi)))+λJ(f)Rsrm=1N∑i=1N(L(xi,f(xi)))+λJ(f)
策略
- 极大似然:经验风险最小化。
模型为条件概率分布,损失函数为对数损失函数时,经验风险最小化等价于极大似然估计。 - 贝叶斯估计:结构风险最小化。
模型为条件概率分布,损失函数为对数损失函数,模型复杂度由模型先验概率表示时,结构风险最小化等价于最大后验概率估计。
算法
- 极大似然估计:最大化似然函数,求取能使似然函数最大的值
- 贝叶斯估计:最大后验概率估计,求取能使其后验分布最大的值
假设随机变量AiAi(独立同分布)表示第ii次试验:
极大似然估计
似然函数:L(θ)=∏ni=1p(Ai)=θk(1−θ)n−kL(θ)=∏i=1np(Ai)=θk(1−θ)n−k
argmaxθlog(L(θ))=argmaxθlog(θk(1−θ)n−k)=argmaxθ(klogθ+(n−k)log(1−θ))(53)(54)(53)argmaxθlog(L(θ))=argmaxθlog(θk(1−θ)n−k)(54)=argmaxθ(klogθ+(n−k)log(1−θ))
对θθ求偏导,令等式为0,可得,
kθ−n−k1−θ=0kθ−n−k1−θ=0
解得θ=knθ=kn贝叶斯估计
最大后验概率估计 p(θ|A1,A2...An)p(θ|A1,A2...An) , θθ为随机变量,p(θ)p(θ)为模型先验概率服从β分布β(θ;a,b)=θa−1(1−θ)b−1Cβ(θ;a,b)=θa−1(1−θ)b−1C, CC为常数,β分布是伯努利分布的共轭先验分布
故
argmaxθp(θ|A1,A2...An)⇔argmaxθθa−1+k(1−θ)b−1+n−kargmaxθp(θ|A1,A2...An)⇔argmaxθθa−1+k(1−θ)b−1+n−k
对等式右边取对数,求偏导,令等式为0,可得
θ=a−1+kn+(a−1)+(b−1)θ=a−1+kn+(a−1)+(b−1)
其中,a,ba,b的取值

ββ分布概率密度函数
- 条件概率分布:P(Y|X)P(Y|X)
- 损失函数:L(Y,P(Y|X))=−logP(Y|X)L(Y,P(Y|X))=−logP(Y|X)
- 似然函数:L(θ)=∏ni=1p(yi|xi,θ)L(θ)=∏i=1np(yi|xi,θ)
- 经验风险最小化:
minθRemp=minθ1n∑i=1nL(yi,p(yi|xi,θ))=minθ1n∑i=1n(−log(p(yi|xi,θ))=minθ−1n∑i=1nlogp(yi|xi,θ)⇔maxθ1n∑i=1nlogp(yi|xi,θ)=maxθ1nlog(∏i=1np(yi|xi,θ))⇔maxθL(θ)(60)(61)(62)(63)(64)(65)(60)minθRemp=minθ1n∑i=1nL(yi,p(yi|xi,θ))(61)=minθ1n∑i=1n(−log(p(yi|xi,θ))(62)=minθ−1n∑i=1nlogp(yi|xi,θ)(63)⇔maxθ1n∑i=1nlogp(yi|xi,θ)(64)=maxθ1nlog(∏i=1np(yi|xi,θ))(65)⇔maxθL(θ)