常见机器学习算法的原理与应用
在机器学习领域,不同的算法有着各自的特点和适用场景。下面将为大家介绍线性回归、逻辑回归、朴素贝叶斯和K近邻(KNN)这几种常见算法。
线性回归的局限性
线性回归在处理复杂关系时存在一定的局限性。它只有一个系数,无法自动表示像抛物线(存在唯一的x值使y最大化)或指数增长这样的复杂关系。要对这些关系进行建模,只能使用x(有时还有y)的数学变换或添加新变量。
此外,线性回归是对各项进行求和,各项可以相互独立变化。很难表示某些变量根据其值以非常不同的方式影响结果的情况。一种解决方法是创建交互项,即将两个或多个变量相乘来创建一个新变量,但这需要事先知道要相乘的变量,并在运行线性回归之前创建新变量。总之,线性回归难以处理复杂情况,更适合简单情况。
逻辑回归
线性回归适合估计值,但不是预测观测值类别的最佳工具。尽管统计理论不建议这样做,但实际上可以尝试将一个类别记为1,另一个类别记为0来对二元类别进行分类,但结果往往令人失望。
线性回归基于连续的数值估计,而要正确分类,需要一个更合适的度量,如类别归属的概率。可以使用以下公式将线性回归的数值估计转换为概率:
[
\text{类别概率} = \frac{\exp(r)}{1 + \exp(r)}
]
其中,r是回归结果(变量乘以系数的总和),exp是指数函数,(\exp(r)) 对应于欧拉数e的r次幂。使用此公式(也称为链接函数)将结果转换为概率的线性回归就是逻辑回归。
逻辑回归的应用
逻辑回归与线性回归类似,唯一的区别是y数据,它应包含表示观测值相对类别的整数值。以下是
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



