
姓名 | |
学号 | |
班号 | |
电子邮件 | |
手机号码 |
1 实验目的
理解逻辑回归模型,掌握逻辑回归模型的参数估计算法。
2 实验要求及实验环境
2.1 实验要求
实现两种损失函数的参数估计(1.无惩罚项;2.加入对参数的惩罚),可以采用梯度下降、共轭梯度或者牛顿法等。
验证:
-
可以手工生成两个分别类别数据(可以用高斯分布),验证你的算法。考察类条件分布不满足朴素贝叶斯假设,会得到什么样的结果。
-
逻辑回归有广泛的用处,例如广告预测。可以到UCI网站上,找一实际数据加以测试。
2.2 实验环境
Windows 10, Python 3.8.5, Jupyter notebook
3 实验原理
分类器做分类问题的实质是预测一个已知样本的位置标签,即 P ( Y = 1 ∣ X = < X 1 , . . . , X n > ) P(Y=1|X=< X_1,...,X_n>) P(Y=1∣X=<X1,...,Xn>)。按照朴素贝叶斯的方法,可以用贝叶斯概率公式将其转化为类条件概率(似然)和类概率的乘积。本实验是直接求该概率。
假设分类问题是一个0/1二分类问题:
P ( Y = 1 ∣ X ) = P ( Y = 1 ) P ( X ∣ Y = 1 ) P ( X ) = P ( Y = 1 ) P ( X ∣ Y = 1 ) P ( Y = 1 ) P ( X ∣ Y = 1 ) + P ( Y = 0 ) P ( X ∣ Y = 0 ) = 1 1 + P ( Y = 0 ) P ( X ∣ Y = 0 ) P ( Y = 1 ) P ( X ∣ Y = 1 ) = 1 1 + exp ( ln P ( Y = 0 ) P ( X ∣ Y = 0 ) P ( Y = 1 ) P ( X ∣ Y = 1 ) ) P(Y=1|X)=\frac {P(Y=1)P(X|Y=1)} {P(X)}\\ \qquad\qquad\qquad\qquad\qquad\qquad\qquad=\frac{P(Y=1)P(X|Y=1)} {P(Y=1)P(X|Y=1)+P(Y=0)P(X|Y=0)}\\ \qquad\qquad=\frac {1}{1+\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)}}\\ \qquad\qquad\qquad\quad\;=\frac {1}{1+\exp (\ln\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)})} P(Y=1∣X)=P(X)P(Y=1)P(X∣Y=1)=P(Y=1)P(X∣Y=1)+P(Y=0)P(X∣Y=0)P(Y=1)P(X∣Y=1)=1+P(Y=1)P(X∣Y=1)P(Y=0)P(X∣Y=0)1=1+exp(lnP(Y=1)P(X∣Y=1)P(Y=0)P(X∣Y=0))1
令 π = P ( Y = 1 ) \pi = P(Y=1) π=P(Y=1), 1 − π = P ( Y = 0 ) 1-\pi = P(Y=0) 1−π=P(Y=0)
P ( Y = 1 ∣ X ) = 1 1 + exp ( ln 1 − π π + ∑ i ln P ( X i ∣ Y = 0 ) P ( X i ∣ Y = 1 ) ) P(Y=1|X)=\frac{1}{1+\exp(\ln \frac{1-\pi}{\pi}+\sum_i \ln \frac {P(X_i|Y=0)}{P(X_i|Y=1)})}\\ P(Y=1∣X)=1+exp(lnπ1−π+∑ilnP(Xi∣Y=1)P(Xi∣Y=0))1
假设类条件分布服从正态分布且方差不依赖于 k k k。 P ( x ∣ y k ) = 1 σ i 2 π e − ( x − μ k ) 2 2 σ i 2 P(x|y_k)=\frac {1}{\sigma_i\sqrt{2\pi}}e^{\frac{-(x-\mu_k)^2}{2\sigma_i^2}} P(x∣yk)=σi2π1e2σi2−(x−μk)2
P ( Y = 1 ∣ X ) = 1 1 + exp ( ln 1 − π π + ∑ i ln 1 σ i 2 π e − ( x i − μ i 0 ) 2 2 σ i 2 1 σ i 2 π e − ( x i − μ i 1 ) 2 2 σ i 2 ) = 1 1 + exp ( ln 1 − π π + ∑ i ln e − ( x i − μ i 0 ) 2 2 σ i 2 e − ( x i − μ i 1 ) 2 2 σ i 2 ) = 1 1 + exp ( ln 1 − π π + ∑ i ( − ( x i − μ i 0 ) 2 2 σ i 2 − − ( x i − μ i 1 ) 2 2 σ i 2 ) ) = 1 1 + exp ( ln 1 − π π + ∑ i ( ( x i − μ i 1 ) 2 2 σ i 2 − ( x i − μ i 0 ) 2 2 σ i 2 ) ) = 1 1 + exp ( ln 1 − π π + ∑ i ( μ i 0 − μ i 1 σ i 2 x i + μ i 1 2 − μ i 0 2 2 σ i 2 ) ) P(Y=1|X)=\frac{1}{1+\exp(\ln \frac{1-\pi}{\pi}+\sum_i \ln \frac {\frac {1}{\sigma_i\sqrt{2\pi}}e^{\frac{-(x_i-\mu_{i0})^2}{2\sigma_i^2}}}{\frac {1}{\sigma_i\sqrt{2\pi}}e^{\frac{-(x_i-\mu_{i1})^2}{2\sigma_i^2}}\\})}\\ \qquad\quad\;=\frac{1}{1+\exp(\ln \frac{1-\pi}{\pi}+\sum_i \ln \frac {e^{\frac{-(x_i-\mu_{i0})^2}{2\sigma_i^2}}}{e^{\frac{-(x_i-\mu_{i1})^2}{2\sigma_i^2}}\\})}\\ \qquad\qquad\qquad\qquad=\frac{1}{1+\exp(\ln \frac{1-\pi}{\pi}+\sum_i (\frac{-(x_i-\mu_{i0})^2}{2\sigma_i^2}- \frac{-(x_i-\mu_{i1})^2}{2\sigma_i^2}))}\\ \qquad\qquad\qquad\quad=\frac{1}{1+\exp(\ln \frac{1-\pi}{\pi}+\sum_i (\frac{(x_i-\mu_{i1})^2}{2\sigma_i^2} - \frac{(x_i-\mu_{i0})^2}{2\sigma_i^2}))}\\ \qquad\qquad\qquad\;\;=\frac{1}{1+\exp(\ln \frac{1-\pi}{\pi}+\sum_i (\frac{\mu_{i0}-\mu_{i1}}{\sigma_i^2}x_i + \frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2}))}\\ P(Y=1∣X)=1+exp(lnπ1−π+∑ilnσi2π