4.无监督学习

4.无监督学习

利用无标签的数据学习数据的分布或数据与数据之间的关系。

有监督学习和无监督学习的最大区别在于数据是否有标签
无监督学习最常用的场景是聚类和降维。

聚类,就是根据数据的“相似性”将数据分为多类的过程。

so,如何定义相似性?
根据两个样本之间的距离。

欧式距离 几何距离

曼哈顿距离 也称街区距离 个人理解就是直角三角形两直角边的和

马氏距离 表示数据的协方差距离,是一种尺度无关的度量方式。也就是说马氏距离会先将样本点的各个属性标准化,再计算样本间的距离。 (感觉马氏距离比较难理解

余弦相似度 用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近1,说明两个向量夹角越接近0度,说明两个向量越相似。

以同样的数据集应用于不同的算法可能会得到不同的结果,这是由算法特性决定的。

sklearn.cluster
数据标准输入格式:[样本个数,特征个数]定义的矩阵形式。
相似度矩阵输入格式

sklearn.cluster几个有代表性的聚类方法的参数与特性

算法名称参数可扩展性相似性度量
K-means聚类个数大规模数据点间距离
DBSCAN邻域大小大规模数据点间距离
Gaussian Mixtures聚类个数及其他超参复杂度高,不适合处理大规模数据马氏距离
Birch分支因子,阈值等其他超参大规模数据两点间的欧式距离
降维,就是在保证数据所具有的代表性特性或者分布的情况下,将高维数据转化为低位数据的过程。

通常用于:

数据可视化
精简数据,中间过程,提高机器学习算法效率

降维过程也可以理解为对数据集的组成成分进行分解(decomposition)的过程,因此sklearn为降维模块命名为decomposition,在对降维算法调用需要使用sklearn.decomposition模块。

sklearn.decomposition里的几个常用降维算法

算法名称参数可拓展性适用任务
PCA所降维度及其他超参大规模数据信号处理等
FastICA所降维度及其他超参超大规模数据图形图像特征提取
NMF所降维度及其他超参大规模数据图形图像特征提取
LDA所降维度及其他超参大规模数据文本数据,主题挖掘
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值