线性回归&决策树分类器 学习笔记
回归
回归(Regression)这一概念最早由英国生物统计学家高尔顿和他的学生皮尔逊在研究父母亲和子女的身高遗传特性时提出,即“子女的身高趋向于高于父母的身高的平均值,但一般不会超过父母的身高”
回归分析
在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为二元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
回归模型理论
模型
一元线性回归模型为 y=ω0+ω1x+εy = \omega_0+\omega_1x+\varepsilony=ω0+ω1x+ε ,其中 ω0\omega_0ω0 和 ω1\omega_1ω1 是回归系数,反应了两变量之间的关系趋势,即该直线的截距和斜率; ε\varepsilonε 是随机误差项或“噪声”项,代表数据中不能被模型拟合的部分,通常假设误差独立于 xxx ,并且 ε∼N(0,σ2)\varepsilon \sim N(0,\sigma^2)ε∼N(0,σ2) 则 y∼N(ω0+ω1x,σ2)y\sim N(\omega_0+\omega_1x,\sigma^2)y∼N(ω0+ω1x,σ2) .对于参数 ω0,ω1,σ\omega_0 ,\omega_1, \sigmaω0,ω1,σ 的估计通常有两种方法,极大似然估计(MLE)和最小二乘估计(LSE).
对于数据集 D={
(x1,y1),...,(xn,yn)}D=\{(x_1,y_1),...,(x_n,y_n)\}D={
(x1,y1),...,(xn,yn)} 我们的目的为找到一条直线 y=ω0+ω1xy = \omega_0+\omega_1xy=ω0+ω1x 使得所有样本点尽可能的落在直线附近。根据极大似然估计方法,选取欧氏距离,则优化目标为
min(w0,w1)∑i=1n(yi−w1xi−w0)2 \min _{\left(w_{0}, w_{1}\right)} \sum_{i=1}^{n}\left(y_{i}-w_{1} x_{i}-w_{0}\right)^{2} (w0,w1)mini=1∑n(yi−w1xi−w0)2
将该优化目标记作 L(ω0,ω1)=∑i=1n(yi−ω1xi−ω0)2L(\omega_0,\omega_1)=\sum_{i=1}^{n}(y_i-\omega_1x_i-\omega_0)^2L(ω0,ω1)=∑i=1n(yi−ω1xi−ω0)2 ,因为 L(ω0,ω1)L(\omega_0,\omega_1)L(ω0,ω1) 为二次凸函数,可以令各偏导数为零:
{
∂L(w1,w0)∂w1=2∑i=1n(yi−w1xi−w0)(−xi)=0∂L(w1,w0)∂w0=2∑i=1n(yi−w1xi−w0)(−1)=0 \left\{\begin{array}{l} \frac{\partial L \left( w _{1}, w _{0}\right)}{\partial w _{1}}=2 \sum_{i=1}^{n}\left(y_{i}- w _{1} x_{i}- w _{0}\right)\left(-x_{i}\right)=0 \\ \frac{\partial L \left( w _{1}, w _{0}\right)}{\partial w _{0}}=2 \sum_{i=1}^{n}\left(y_{i}- w _{1} x_{i}- w _{0}\right)(-1)=0 \end{array}\right. {
∂w1∂L(w1,w0)=2∑i=1

本文深入探讨了线性回归的基本原理,包括一元和多元回归模型,以及决策树算法,涵盖ID3、C4.5和CART等经典算法,解析了不纯度度量、生成和剪枝策略。
最低0.47元/天 解锁文章
4251

被折叠的 条评论
为什么被折叠?



