从机器学习的角度着手分析。
1、先来个小例子
给定一组data:1,2,3,4,5,?
猜测5后面的数是多少?
想必,我们会猜测是6
具体思路是这样的:
我们假定这组data服从一个规律,fff,满足f(1)=1,f(2)=2,f(3)=3,f(4)=4,f(5)=5f(1)=1,f(2)=2,f(3)=3,f(4)=4,f(5)=5f(1)=1,f(2)=2,f(3)=3,f(4)=4,f(5)=5
这时,从最简单的角度出发,猜测规律fff为:f(x)=xf(x)=xf(x)=x,从而推断f(6)=6f(6)=6f(6)=6。
总结: 以上算是一个特别简单的数据拟合问题,即回归问题。
2、回归问题
给定N组对应关系的符号表示:(x1,y1),...,(xN,yN)(x_1,y_1),...,(x_N,y_N)(x1,y1),...,(xN,yN),其中xi∈Rn,yi∈Rx_i\in R^n,y_i\in Rxi∈Rn,yi∈R。
xi∈Rnx_i\in R^nxi∈Rn,表示xix_ixi为nnn维向量。
yi∈Ry_i\in Ryi∈R,表示yiy_iyi为一个实数。
每一组(xi,yi)(x_i,y_i)(xi,yi)都有xi➡yix_i➡y_ixi➡yi的对应关系。
从函数的角度,要想整体描述xxx和yyy的关系,则目标是:
找到这样一个函数fff,满足:yi≈f(xi)y_i≈f(x_i)yi≈f(xi),即
(y1⋮yN)≈(f(x1)⋮f(xN))\left(
\begin{matrix}
y_1\\
\vdots \\
y_N
\end{matrix}
\right)≈\left(
\begin{matrix}
f(x_1)\\
\vdots \\
f(x_N)
\end{matrix}
\right)
⎝⎜⎛y1⋮yN⎠⎟⎞≈⎝⎜⎛f(x1)⋮f(xN)⎠⎟⎞
显然,这是一个数据拟合,即回归问题。
这时,要让左右两边向量尽可能近。
向量,可以理解为高维空间中的点。
高维空间中点的距离,最简单的定义是2-范数的平方。
范数:某个向量空间中每个向量的长度或大小。
2-范数是常用范数,表达式为:∣∣x∣∣2=(x12+⋯+xn2)1/2||x||_2=(x_1^2+\cdots+x_n^2)^{1/2}∣∣x∣∣2=(x12+⋯+xn2)1/2,其中下角标2常省略。
因此,向量之间的距离表示为:∣∣a−b∣∣2=∑i=1n(ai−bi)2||a-b||^2=\displaystyle\sum_{i=1}^n(a_i-b_i)^2∣∣a−b∣∣2=i=1∑n(ai−bi)2,该距离也称为欧氏距离。
左右两边向量的距离d=∑i=1n(yi−f(xi))2d=\displaystyle\sum_{i=1}^n(y_i-f(x_i))^2d=i=1∑n(yi−f(xi))2,表示对函数fff契合度的度量,要使ddd尽可能小。
找fff时,假设fff是最简单的线性函数,f(x)=atx+bf(x)=a^tx+bf(x)=atx+b,其中a∈Rn,b∈Ra\in R^n,b\in Ra∈Rn,b∈R。
a,ba,ba,b为函数的参数,也称为模型的参数。
aaa默认为是一个列向量,ata^tat表示aaa的转置。
eg:
a=(123)a=\left( \begin{matrix} 1\\ 2\\ 3 \end{matrix} \right)a=⎝⎛123⎠⎞,则at=(1,2,3)a^t=(1,2,3)at=(1,2,3)atx=<a,x>=∑i=1naixia^tx=<a,x>=\displaystyle\sum_{i=1}^na_ix_iatx=<a,x>=i=1∑naixi,<a,x><a,x><a,x>为a,xa,xa,x的内积。
因此,问题转化为了这样一个优化问题:
minimizeminimizeminimize ddd,求参数a,ba,ba,b
即minimize(a,b)\underset{(a,b)}{minimize}(a,b)minimize ∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2i=1∑n(yi−atxi−b)2
一旦求解了这个优化问题,那么a,ba,ba,b就可以找到了。、
将min(a,b)\underset{(a,b)}{min}(a,b)min ∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2i=1∑n(yi−atxi−b)2记作g(a,b)g(a,b)g(a,b),即:g(a,b)=min(a,b)g(a,b)=\underset{(a,b)}{min}g(a,b)=(a,b)min ∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2i=1∑n(yi−atxi−b)2,
后续课程会涉及到g(a,b)g(a,b)g(a,b)是一个凸函数,在最小值点⇒\Rightarrow⇒
∂ag=0\partial_{a}g=0∂ag=0➡nnn个方程
∂bg=0\partial_{b}g=0∂bg=0➡1个方程
共n+1n+1n+1个方程,解出n+1n+1n+1个变量,从而得出a,ba,ba,b的值。
∂\partial∂ 偏导数,也是偏微分
3、总结
3.1、做科研时,总是要去解决一个具体的问题,可以分为以下这么几步:
idea➡math(数学推演)➡optimization(优化问题)➡algo
3.2、在回归问题中,涉及到多元微积分,多元微积分是优化的基础,微积分与优化的关系如下:
一元微积分⇒\Rightarrow⇒多元微积分⇒\Rightarrow⇒优化⇒\Rightarrow⇒凸优化
前者均为后者的基础,无论是微积分还是优化,都是服务于机器学习的,机器学习中的很多算法,就是一个优化问题。
本文介绍了机器学习中的回归问题,通过一个简单的数列预测例子引入,阐述了如何寻找数据的拟合函数。回归问题的目标是找到使得预测误差平方和最小的函数,这里以线性回归为例,提出了最小化误差的优化问题,并提到优化问题的解决方案涉及多元微积分。文章总结了科研过程中从问题到数学模型再到优化问题的步骤,并强调了微积分在优化中的基础作用。
2127

被折叠的 条评论
为什么被折叠?



