一、基础
1.1标准误与标准差
https://zhidao.baidu.com/question/373404626.html
https://www.youtube.com/watch?v=3L9ZMdzJyyI (讲解bse的由来)
1.2回归标准差
https://www.51dongshi.com/eedfgbsdrgr.html
https://blog.youkuaiyun.com/weixin_39861669/article/details/110216635?spm=1001.2101.3001.6661.1&utm_medium=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-110216635-blog-110216633.pc_relevant_multi_platform_whitelistv4&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1-110216635-blog-110216633.pc_relevant_multi_platform_whitelistv4&utm_relevant_index=1 (回归系数的标准差)
https://www.statsmodels.org/dev/generated/statsmodels.regression.linear_model.OLSResults.bse.html
1.3分布函数与密度函数
分布函数和密度函数的关系:已知连续型随机变量的密度函数,可以通过讨论及定积分的计算求出其分布函数。
二、模型
2.1 逻辑斯蒂回归
2.2 鲁棒线性回归
鲁棒线性回归去噪的模型定义为如下形式:
minω,σ∑i=1n(σ+Hε(xω−yiσ)σ)+α∥ω∥22
\footnotesize
\min _{\omega, \sigma} \sum_{i=1}^{n}\left(\sigma+{H}_\varepsilon \left(\frac{x\omega-y_{i}}{\sigma}\right) \sigma\right)+\alpha\|\omega\|_{2}^{2}
ω,σmini=1∑n(σ+Hε(σxω−yi)σ)+α∥ω∥22
Hε(z){z2,∣z∣<ε∣z∣ε−12ε2,∣z∣≥ε
\footnotesize
{H}_\varepsilon (z)\left\{\begin{matrix}
z^2,& |z|< \varepsilon \\
|z|\varepsilon -\frac{1}{2}\varepsilon ^2,& |z|\ge \varepsilon
\end{matrix}\right.
Hε(z){z2,∣z∣ε−21ε2,∣z∣<ε∣z∣≥ε
其中σ\footnotesize \sigmaσ 和ω\footnotesize \omegaω表示被优化的参数,α\footnotesize \alphaα表示正则化参数,ε\footnotesize \varepsilonε 表示阈值。当∣z∣<ε\footnotesize |z|< \varepsilon∣z∣<ε 时使用平方损失,否则说明距离较大,视为异常值使用绝对值损失。避免噪声对数据的影响,更利于数据曲线的拟合。
https://zhuanlan.zhihu.com/p/374101696
https://zhuanlan.zhihu.com/p/435519152
https://www.zhihu.com/question/62127796
https://blog.youkuaiyun.com/qq_37353105/article/details/80640591
https://developer.nvidia.com/zh-cn/blog/dealing-with-outliers-using-three-robust-linear-regression-models/
http://www.manongjc.com/detail/31-xuyuypiditnvvqa.html(sklearn实现)
2.3局部加权线性回归
https://blog.youkuaiyun.com/qq_54434938/article/details/124070560
三、线性回归
多重线性回归模型。
四、参考资料
4.1 参考代码
https://github.com/liuslnlp/plume/blob/master/plume/utils.py