常见分类算法介绍
1. 逻辑回归
1.1 局限性
逻辑回归存在以下三个主要局限性:
- 线性假设 :逻辑回归假定自变量和因变量之间存在线性关系,但在现实世界中,这种关系可能无法准确反映复杂情况。
- 仅适用于二元结果 :虽然逻辑回归在二元分类任务中表现出色,但在没有进行修改的情况下,它不适用于预测连续结果或多类别分类问题。
- 过拟合风险 :在特征数量较多或数据不足的情况下,逻辑回归容易出现过拟合现象,导致模型在训练数据上表现良好,但在新的、未见过的数据上泛化能力较差。
不过,由于其简单性、可解释性以及在各种应用中的二元分类任务的有效性,逻辑回归仍然是统计学家和数据科学家常用的算法。
2. 决策树分类器
2.1 原理
决策树分类器是一种非参数监督学习方法,用于分类任务。它类似于树结构,每个内部节点代表对一个属性的“测试”,每个分支代表测试的结果,每个叶节点代表一个类别标签。从根节点到叶节点的路径代表分类规则。
决策树通过基于最重要的属性将数据集划分为子集,使决策过程变得透明。这个过程是递归的,被称为递归划分。树的构建是通过选择能最好地将数据划分为不同类别的属性,使用诸如基尼不纯度或信息增益等度量作为划分标准。这个过程会一直持续,直到满足停止条件,例如达到树的最大深度或划分标准不再有进一步的改进。
2.2 示例
假设你计划进行一次户外野餐,需要根据当天的天气条件来决定是否前往。你可以创建一个简单的决策过程,类似于流程图,来帮助你做
超级会员免费看
订阅专栏 解锁全文

682

被折叠的 条评论
为什么被折叠?



