机器学习:从数据处理到模型应用的全面指南
1. 预测物种与特征影响
在进行物种预测时,涉及到预测物种和实际物种的对比。预测物种包括 Floribunda (White)、Rosa kordesii (Red)、Rosaceae (Blue) ,实际物种情况如下表所示:
| 实际物种 | 相关数据 |
| — | — |
| Rosaceae (Blue) | 0, 0, 41 |
| Floribunda (White) | 53, 4, 0 |
| Rosa kordesii (Red) | 0, 45, 0 |
同时,有四个特征对结果的影响百分比分别为:
- Leaf Length (mm):9.3581%
- Leaf Width (mm):3.2167%
- Stem length (mm):43.2882%
- Stem width (mm):44.1370%
完成随机森林的学习后,接下来将探讨如何处理需要预处理的不完美数据。
2. 处理不平衡数据集
不平衡类别的数据会使“准确性”指标失效,这在机器学习(特别是分类问题)中是一个常见问题,出现在各类别观测值比例失调的数据集中。标准准确性不再能可靠地衡量性能,这让模型训练变得更加棘手。
2.1 目标变量的分类
目标变量有三个类别:
- R(右重):当 var3 ∗ var4 > var1 ∗ var2
- L(左重):当 var3 ∗ var4 < var1 ∗ var2
- B(平衡):当 var3 ∗
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



