机器学习与编程工具全解析
1. 决策树实现
决策树的创建从根节点开始。第一步是选择一个数据属性,并基于此属性设置一个逻辑测试。当得到一组结果后,可以进行分支并创建另一组测试,用于创建子节点。一旦至少有一个子节点,就可以对其应用递归拆分过程,以确保得到纯净的决策树叶节点。需要注意的是,纯度水平是根据从单个类别中衍生出的案例数量来确定的。此时,可以开始修剪决策树,去除任何不能提高分类阶段准确性的部分。此外,还需要评估基于每个属性执行的每一次拆分,以确定最优属性和拆分方式。
下面以鸢尾花数据集为例,借助Scikit - learn库进行决策树的实现,不过书中未给出此部分具体代码,大家可以参考Scikit - learn官方文档进行操作,基本流程如下:
1. 加载鸢尾花数据集。
2. 选择合适的属性进行逻辑测试。
3. 递归拆分节点。
4. 修剪决策树。
2. K - 均值聚类
无监督学习方法非常适合处理无标签数据,其中K - 均值聚类是一种流行的无监督学习算法和聚类技术。其核心思想是根据数据值的相似性构建数据簇。具体步骤如下:
1. 确定K值,即定义的簇的总数。
2. 将簇构建为K个点,每个点持有代表整个簇的平均值。
3. 根据最接近的平均值为数据值分配簇。
4. 经过多次迭代,核心值会移动到使性能指标较低的位置,此时得到聚类结果。
2.1 代码实现
以下是使用UCI手写数字数据集进行K - 均值聚类的代码:
from time import time
imp
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



