1. 朴素贝叶斯:准备(选择特征并预处理),训练(根据样本类别及特征数据进行概率估计),应用(输入样本,输出类别)
前提:假设特征间相互独立且同样重要,最终求Max(P1,P2,P3… …Pn)–>p(y1|x)= p(x|y1)*p(y1) / p(x)
重点:
0概率问题:加入拉普拉斯平滑,对于有0样本的类,每个特征值的样本数量+1,再计算概率。
下溢问题:取对数,使得概率连乘转累加;
异常值/缺失值不敏感,且异常值会保持算法精度(降噪会降低泛化能力)
连续型:离散化(不好);假设其满足某种概率分布,如高斯等,利用高斯代替。
常用模型:高斯,多项式,伯努利,高偏差,低方差
2. 线性/逻辑回归:逻辑回归是基于线性回归(广义),引入逻辑函数(sigmoid)使预测结果映射到(0-1)空间
推导:逻辑–损失函数(最大似然估计)并求导,梯度下降法求参;线性–损失函数(均方误差),最小二乘法或梯度下降求参。
重点&#