李宏毅机器学习1~3

最新推荐文章于 2025-06-05 15:21:20 发布

转载最新推荐文章于 2025-06-05 15:21:20 发布 · 240 阅读

大数定理

切比雪夫大数定理：
该定理表明，当n很大的时候，随机变量 X1,X2…Xn的算术平均值依概率收敛于它的期望值，说明了平均值具有稳定性。
伯努利大数定理：
该定理表明：在独立重复实验中，事件A发生的频率依概率收敛于事件A出现的概率，证明了频率的稳定性。在实际应用中，当实验次数很大时，可以用事件发生的频率来估计事件的概率

中心极限定理

在许多实际问题中，有很多随机现象可以看作是许多因素的独立影响的综合结果，而其中每个因素对该现象的影响很小，描述这类随机现象的随机变量可以看成许多互相独立的起微小作用的因素之和，理论上可以证明，他们往往近似服从正态分布。概率论中，把研究在什么条件下，大量独立的随机变量之和的分布以正态分布为极限这一类定理成为中心极限定理
设随机变量序列{ $X_n$ }独立同分布，且存在数学期望和方差
E{ $X_i$ }= $μ\mu$ D{ $X_i$ }= $σ2\sigma^2$ >0
则当n充分大的时候有
$∑\sum$ $X_i$ ~ $AN(nμ,nσ2)AN(n\mu ,n\sigma ^2)$
在线性回归中，将所有样本的训练误差看作随机变量序列，利用中心极限定理，证明误差服从正态分布

正态分布

$X$ ~ $N(μ,σ2)N(\mu ,\sigma ^2)$ 大量的随机现象可以用正态分布描述，许多机器学习算法就是建立在假设随机变量服从正态的条件下的

最大似然估计

最直观的想法是：在试验中概率最大的事件最有可能出现。我们利用手中的样本，去估算分布中的未知参数。
设总体 $X$ 的分布为
$P{X=x}=p(x;θ)P\left \{ X=x \right \}=p(x;\theta )$
$P{X1=x1,X2=x2...Xn=xn}=∏i=1np(xi;θ)=L(θ)P\left \{ X_1=x_1 ,X_2=x_2...X_n=x_n\right \}=\prod_{i=1}^{n} p(x_i;\theta )=L(\theta)$ $(θ=(θ1,θ2,...θn))(\theta=(\theta_1,\theta_2,...\theta_n))$
使 $L(θ)L(\theta)$ 达到最大的参数称为最大似然估计量

线性回归损失函数推导

在这里插入图片描述
大致思路是将样本的误差看作独立同分布，则他们为正态分布。已知了分布类型，未知是参数 $θ\theta$ 利用最大似然估计来求解 $θ\theta$ 。
最终写成矩阵形式损失函数为:
$J(θ)=12(Xθ−Y)T(Xθ−Y)J(\theta)=\frac{1}{2}(X\theta-Y)^T(X\theta-Y)$
一种解法是利用梯度下降，向着负梯度方向移动
或者直接求极值点，此时的 $θ\theta$ 取值为损失函数的最小值

梯度下降代码

 ##原函数
  def f(x):
  	return x**2
 ##原函数导数
 def h(x):
 	return 2*x
 X=[] 
 Y=[]
 x=2##初始值
 step=0.8
 f_change=f(x)
 f_current=f(x)
 X.append(x)
 y.append(f_current)
 while f_change>1e-10:
 	x=x-h(x)
 	tmp=f(x)
 	f_change=np.abs(f_current-tmp)
 	f_current=tmp
 	X.append(x)
 	y.append(f_currnt)
 	print('x= :',x)
 	print('f_change:',f_change,'f_current: ',f_current)
 print('最终结果:', (x,f_current))