1 使用场景
https://www.nowcoder.com/discuss/175759
EM: 一种含有隐含变量的概率模型参数的极大似然估计法,主要应用于在机器学习以及计算机视觉的数据聚类领域。
lr:通过拟合样本的某个曲线,然后使用LR 进行区间缩放,用于分类,主要用在点击率预估和推荐系统。
SVM:找到样本空间中的一个超平面,实现样本的分类,也可以做回归,用于文本分类。
nn:找到某种非线性模型拟合数据,主要用于图像处理。
nb:朴素贝叶斯:通过找到样本所属的联合分布,然后通过贝叶斯公式计算样本的后验概率,进行分类,用于文本分类。
dt:决策树:构建一棵树,在节点按照,某种规则(一般使用信息熵) 来进行样本划分,实质是在样本空间进行块状划分,主要用来分类,也有做回归,但更多的是作为弱分类器用在model embedding 中。
rf:随机森林,由许多决策树构成的森林,每个森林中训练的样本是从整体样本中抽样得到的,每个节点需要进行划分的特征也是抽样得到的,这样子就使得每棵树都具有独特的领域知识,从而有更好的泛化能力。
gdbt:梯度提升决策树,实际上由多棵树构成,和rf 不同的是,每棵树训练样本是上一棵树的残差,这体现了梯度的思想,同时最后的结果是用所有的树进行组合或者投票得出,主要用在推荐,相关性。
knn: k 最近邻,最简单的ml 方法,对未知标签的样本,看与它最近的·k 个样本( 使用某种距离公式) 中哪种标签最多,它就属于这类。