逻辑回归
第 1 章 简介
逻辑回归是一种常用的机器学习方法,用于解决分类问题。虽然名字中带有"回归",但实际上是一种分类算法,主要进行二分类。它的发展历史可以追溯到19世纪末的统计学研究。统计学家Karl Pearson和Ronald Fisher对二项分布进行了深入研究,为逻辑回归的发展奠定了基础。20世纪40年代,美国统计学家John William Tukey和美国经济学家John Neumann Friedman引入了逻辑回归的概念。1958年,经济学家Daniel McFadden提出了条件最大似然估计法,进一步完善了逻辑回归。目前,逻辑回归在统计学和机器学习领域得到了广泛应用。
第 2 章 预备知识
2.1 海涅定理(归结原则)
设 f f f 在 U ( x 0 ; σ ) U(x_0; \sigma) U(x0;σ) 上有定义,极限 lim x → x 0 f ( x ) \displaystyle \lim_{x \to x_0}f(x) x→x0limf(x) 存在的充要条件:对任何含于 U ( x 0 ; σ ) U(x_0; \sigma) U(x0;σ) 且以 x 0 x_0 x0为极限的数列 { x n } \{x_n\} { xn}, lim n → ∞ f ( x n ) \displaystyle \lim_{n \to \infty}f(x_n) n→∞limf(xn)极限存在且相等。
2.2 单调有界准则
在实数系中,有界的单调数列必有极限。
2.3 最大似然估计
最大似然估计(Maximum Likelihood Estimate, MLE)最早是由德国数学家高斯在1821年针对正态分布提出的,但一般将之归功于费希尔,因为费希尔在1922年再次提出了这种想法并证明它的一些性质而使得最大似然法得到了广泛的应用[1]。
定义 1
设总体的概率函数为 p ( x ; θ ) p(x; \theta) p(x;θ), θ ∈ Θ \theta \in \Theta θ∈Θ,其中 θ \theta θ 是一个未知参数或几个未知参数组成的参数向量, Θ \Theta Θ是参数空间, x 1 , ⋯ , x n x_1, \cdots, x_n x1,⋯,xn 是来自该总体的样本,将样本的联合概率函数看成 θ \theta θ 的函数,用 L ( θ ; x 1 , ⋯ , x n ) L(\theta;x_1, \cdots,x_n) L(θ;x1,⋯,xn) 表示,简记为 L ( θ ) L(\theta) L(θ)。其表达式如下:
L ( θ ) = L ( θ ; x 1 , ⋯ , x n ) = P ( x 1 ; θ ) P ( x 2 ; θ ) ⋯ P ( x n ; θ ) L(\theta) = L(\theta;x_1, \cdots,x_n)=P(x_1; \theta)P(x_2; \theta) \cdots P(x_n; \theta) L(θ)=L(θ;x1,⋯,xn)=P(x1;θ)P(x2;θ)⋯P(xn;θ)
L ( θ ) L(\theta) L(θ)称为样本的似然函数。如果某统计量 θ ^ = θ ^ ( x 1 , ⋯ , x n ) \hat{\theta} = \hat{\theta}(x_1, \cdots, x_n) θ^=θ^(x1,⋯,xn) 满足:
L ( θ ^ ) = max θ ∈ Θ L ( θ ) L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta) L(θ^)=θ∈ΘmaxL(θ)
则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的最大似然估计。
第 3 章 理论推导
3.1 随机变量及其分布
定义 2
在样本空间 Ω \Omega Ω上定义的实值函数 X = X ( ω ) X=X(\omega) X=X(ω),即能够表示随机现象结果的变量,我们称为随机变量,常用大写字母 X , Y , Z X, Y, Z X,Y,Z表示,其取值(随机现象结果)用小写字母 x , y , z x, y, z x,y,z表示。随机变量的取值有有限个,则称为离散随机变量;随机变量的取值有无限个时,称为连续随机变量[1]。
定义表明:随机变量 X X X是样本点 ω \omega ω的一个函数,这个函数可以是不同的样本点对应不同的实数,也允许多个样本点对应同一个实数。样本点可以是数值型,也可以不是,但随机变量的取值一定是实数。在概率论中,讨论随机变量(任意随机变量)就一定要讨论随机变量的分布,只要知道随机变量的分布就可以知道随机变量取值的概率值[1]。
定义 3
设 X X X是随机变量,对于任意实数 x x x,称
F ( x ) = P ( X ≤ x ) F(x)=P(X\leq x) \notag F(x)=P(X≤x)
为随机变量 X X X的分布函数,且称 X X X服从 F ( x ) F(x) F(x), 记为 X ∼ F ( x ) X \sim F(x) X∼F(x)。
定理 1
任意分布函数 F ( x ) F(x) F(x) 都具有如下三条基本性质:
(1) 单调性 F ( x ) F(x) F(x) 是定义在整个实数轴 ( − ∞ , ∞ ) (-\infty, \infty) (−∞,∞)上是单调非递减,即对于任意 x 1 , x 2 x_1, x_2 x1,x2, 有 F ( x 1 ) ≤ F ( x 2 ) F(x_1) \leq F(x_2) F(x1)≤F(x2).
(2) 有界性 对任意的 x x x, 有 0 ≤ F ( x ) ≤ 1 0 \leq F(x) \leq 1 0≤F(x)≤1,且
F ( − ∞ ) = 0 F ( ∞ ) = 1 F(-\infty) = 0 \\ F(\infty) = 1 F(−∞)=0F(∞)=1
(3) 右连续性 F ( x ) F(x) F(x)是 x x x 的右连续函数,即对任意的 x 0 x_0 x0 ,有
lim x → x 0 + F ( x ) = F ( x 0 ) \lim_{x \rightarrow {x_0^+}} F(x) = F(x_0) x→x0+limF(x)=F(x0)
(1)证:
对于任意 x 2 > x 1 x_2 > x_1 x2>x1, 即 ( − ∞ , x 1 ] ⊂ ( − ∞ , x 2 ] (-\infty, x_1] \subset (-\infty, x_2] (−∞,x1]⊂(−∞,x2], 根据概率的单调性(当事件B被事件A包含时,说明事件A比事件B更容易发生,那么事件B的概率不应该比A的概率小,即若 B ⊂ A B \subset A B⊂A, 则 P ( A ) ≤ P ( B ) P(A) \leq P(B) P(A)≤P(B))可知, F ( x 1 ) = P ( X ≤ x 1 ) ≤ P ( X ≤ x 2 ) = F ( x 2 ) . F(x_1) = P(X\leq x_1) \leq P(X\leq x_2)=F(x_2). F(x1)=P(X≤x1)≤P(X≤x2)=F(x2).
(2)证:
很显然, lim x → ∞ F ( x ) \displaystyle \lim_{x \to \infty}F(x) x→∞limF(x)存在。
令 A n = { X ≤ n } A_n=\{X \leq n\} An={
X≤n}, 则有 A n ⊂ A n + 1 A_n \subset A_{n+1} An⊂An+1, ∑ i = 1 + ∞ A i = Ω \displaystyle \sum_{i=1}^{+\infty} A_i=\Omega i=1∑+∞Ai=Ω,
lim x → ∞ F ( x ) = lim n → ∞ F ( n ) = lim n → ∞ P ( A n ) = P ( ∑ i = 1 + ∞ A i ) = P ( Ω ) = 1 \begin{align} \lim_{x \to \infty}F(x) &= \lim_{n \to \infty}F(n) \notag \\ &=\lim_{n \to \infty}P(A_n) \notag \\ &=P(\sum_{i=1}^{+\infty} A_i) \notag \\ &=P(\Omega) \notag \\ &=1 \notag \end{align} x→∞limF(x)=n→∞limF(n)=n→∞limP(An)=P(i=1∑+∞Ai)=P(Ω)=1
很显然, lim x → − ∞ F ( x ) \displaystyle \lim_{x \to -\infty}F(x) x→−∞limF(x)存在。
令 B n = { X ≤ − n } B_n=\{X \leq -n\} Bn={
X≤−n}, 则有 B n ⊃ B n + 1 B_n \supset B_{n+1} Bn⊃Bn+1, ∏ i = 1 + ∞ B i = ∅ \displaystyle \prod_{i=1}^{+\infty} B_i=\empty i=1∏+∞Bi=∅,
lim x → − ∞ F ( x ) = lim n → ∞ F ( − n ) = lim n → ∞ P ( B n ) = P ( ∏ i = 1 + ∞ B i ) = P ( ∅ ) = 0 \begin{align} \lim_{x \to -\infty}F(x) &= \lim_{n \to \infty}F(-n) \notag \\ &=\lim_{n \to \infty}P(B_n) \notag \\ &=P(\prod_{i=1}^{+\infty} B_i) \notag \\ &=P(\empty) \notag \\ &=0 \notag \\ \end{align} x→−∞limF(x)=n→∞limF(−n)=n→∞limP(Bn)
逻辑回归模型详解:从预备知识到参数估计

本文介绍了逻辑回归的基本概念和理论推导,包括预备知识如海涅定理、单调有界准则和最大似然估计,以及逻辑函数、逻辑分布和逻辑回归模型的构建。通过对单位阶跃函数的分析,引出了Sigmoid函数作为平滑近似,进而建立了逻辑回归模型。文章还讨论了参数估计的方法,如极大似然估计和梯度下降法,展示了如何训练和更新模型参数。
最低0.47元/天 解锁文章
963

被折叠的 条评论
为什么被折叠?



