常见分类算法详解
在数据分类领域,有多种算法可用于解决不同类型的问题。本文将详细介绍线性判别分析(LDA)、逻辑回归、k近邻分类器(KNN)和支持向量机(SVM)这几种常见的分类算法。
1. 线性判别分析(LDA)
线性判别分析(LDA)假设所有类别的协方差矩阵相同,即 $\Sigma_i = \Sigma$。在这种假设下,判别函数是线性的。但如果不做此假设,线性判别函数将变为非线性,因为不同类别的 $x$ 的二次项不再相同,这就引出了二次判别函数:
$\delta_i(x)’ = -\frac{1}{2}\log|\Sigma_i| - \frac{1}{2}(x - \mu_i)^T\Sigma_i^{-1}(x - \mu_i) + \log p_i$
进一步的扩展包括使用高斯混合模型或非参数密度估计,这类方法通常被称为高斯判别分析。
2. 逻辑回归
逻辑回归是广义线性模型(GLMs)的一种,用于处理二元数据,可进行分类任务。它的目标是估计条件概率分布 $p(Y = 1|x)$,由于响应变量是二元的,所以 $p(Y = 0|x) = 1 - p(Y = 1|x)$。
为了更好地理解逻辑回归,我们以纽约米其林指南餐厅数据为例。该数据包含餐厅是否被推荐(“InMichelin”)以及多个协变量,如“Food”、“Decor”、“Service”、“Cost”和“Cuisine”。我们选择“Food”分数作为单一协变量进行分析。
首先,我们根据数据计算推荐餐厅的比例:
$prop(restaurants\ in\ Michelin\ guide| food\ score) = \frac
超级会员免费看
订阅专栏 解锁全文
1257

被折叠的 条评论
为什么被折叠?



