机器学习中的聚类、强化学习与人工神经网络
1. 聚类分析
1.1 聚类概述
之前探讨的回归和分类属于监督学习方法,需使用有标签的数据让机器学习。而聚类则是无监督学习,没有正确答案或标签,只有输入数据,机器在学习时没有监督,算法需自行从数据中学习。聚类旨在发现数据中的簇或聚合。
1.2 聚类目标与用途
聚类属于无监督学习,数据无标签,很多情况下没有绝对正确的答案。其目标是发现数据中的自然簇,不是预测结果,而是寻找数据中可能存在的结构,将数据集划分为成员具有相似性的组。
例如,电商客户可根据收入或消费情况分组。聚类常用于地震研究、生物学、产品分类、制造业等领域,但对于簇的数量和数据点所属的簇没有严格规则,需根据项目目标和领域专业知识来确定。
- 聚类步骤 :
1. 初始数据点可能无明显模式。
2. 应用聚类算法后可看到簇。
3. 聚类算法还可用于异常检测,找出不属于任何簇的点。
1.3 K - 均值聚类
K - 均值算法是一种聚类分析方法,它将对象划分为指定数量(k 个)的簇。下面以 Mall_Customers.csv 数据集为例,该数据集包含商场顾客的年龄、收入、消费、性别等信息,消费得分越高表示消费水平越高。
1.3.1 代码实现步骤
- 导入必要的库 :
import numpy as np
import
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



