目录
2. 逻辑回归(Logistic Regression)
6. KNN算法(K-Nearest Neighbors)
1. 决策树(Decision Tree)
原理:像玩"20问"一样一步步提问
想象你要判断一个动物是猫还是狗:
- 第一步问:"四条腿吗?" → 不是就排除鸟类
- 第二步问:"有尾巴吗?" → 是的话继续问
- 最后问:"会喵喵叫吗?" → 是就是猫,不是就是狗
特点:生成一棵"问题树",叶子节点给出答案。优点是结果直观,容易解释。
2. 逻辑回归(Logistic Regression)
原理:找一个分界线做判断
想象考试60分算及格:
- 将学生成绩从小到大排成一列
- 找到中间某个分数(比如60分),左边的不及格,右边的及格
- 用一条直线把数据分成两类
特点:虽然名字带"回归",但其实用于分类。适合二分类问题,输出概率值(如90%可能下雨)。
3. 贝叶斯算法(Bayesian)
原理:用已知信息更新猜测
比如天气预报说:
- 明天下雨的概率=历史下雨概率(先验)
- 但今天看到乌云密布(新证据)
- 更新后的概率=(乌云时下雨次数 / 总乌云天数)
特点:基于概率推理,常用于文本分类(如垃圾邮件识别)。
4. 支持向量机(SVM)
原理:找最佳分界线保护"特殊样本"
想象要在人群中找出小偷:
- 把普通人和小偷画在坐标上
- 找一条直线,让所有小偷都在直线一边,普通人另一边
- 如果有小偷离直线太近,就调整直线位置直到所有人"安全"
特点:擅长处理高维数据,但需要较多计算资源。
5. 人工神经网络(Neural Network)
原理:模拟大脑神经元工作
想象快递分拣中心:
- 输入层(快递单信息)→ 中间层(称重、扫描)→ 输出层(分拣区域)
- 每个节点像工人,根据规则传递信号(权重调整)
- 经过多次练习后,能自动学会分类
特点:处理复杂非线性问题能力强,但像小孩需要大量"训练"。
6. KNN算法(K-Nearest Neighbors)
原理:找邻居投票决定
比如预测你家的电费是否超标:
- 把和你小区户型、人口相似的家庭电价拿出来
- 找最近的10个邻居(K=10)
- 看这10家里多数是否超支 → 结果就是你的预测值
特点:无需训练,适合小数据集,但极端值会影响结果。
总结对比表(方便记忆)
算法 | 核心思想 | 适用场景 | 优点 | 缺点 |
---|---|---|---|---|
决策树 | 一步步提问做选择 | 数据量小、需要解释性 | 易懂、速度快 | 容易过拟合 |
逻辑回归 | 找分界线 | 二分类、概率预测 | 计算快、可解释 | 无法处理复杂关系 |
贝叶斯 | 用概率更新认知 | 文本分类、医疗诊断 | 基于概率理论 | 对数据量敏感 |
SVM | 最大间隔保护样本 | 高维数据、小样本 | 泛化能力强 | 参数调优复杂 |
神经网络 | 模拟人脑神经元 | 图像识别、语音处理 | 处理复杂问题强 | 训练时间长、黑箱模型 |
KNN | 邻居投票 | 数据稀疏、特征少 | 无需训练 | 敏感度高、计算量大 |
举个🌰:判断邮件是否为垃圾邮件
- 决策树会问:"发件人是否在黑名单?""包含'免费'词吗?"
- 逻辑回归计算:"包含特定词汇的邮件有80%概率是垃圾"
- 贝叶斯会说:"根据历史数据,这类主题邮件的垃圾概率是30%"
- SVM努力寻找区分垃圾和正常邮件的"超平面"
- 神经网络学习海量邮件特征后自动分类
- KNN查看最近10封类似邮件的标签做决定