2. 无监督学习简介

一、无监督学习的目标

利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监 督学习。

  • 有监督学习和无监督学习的最大区别在于数据是否有标签
  • 无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction)

1. 聚类(clustering)

聚类(clustering),就是根据数据的“相似性”将数据分为多类的过程。
评估两个不同样本之间的“相似性” ,通常使用的方法就是计算两个样本之间的“距离”。 使用不同的方法计算样本间的距离会关系到聚类 结果的好坏。

这里写图片描述

欧氏距离

欧氏距离是最常用的一种距离度 量方法,源于欧式空间中两点的距离。 其计算方法如下:
d = ∑ k = 1 n ( x 1 k − x 2 k ) 2 d=\sqrt{\sum_{k=1}^n(x_{1k}-x_{2k})^2} d=k=1n(x1kx2k)2

二维空间中欧式距离的计算

这里写图片描述

曼哈顿距离

曼哈顿距离也称作“城市街区距离”,类似于在城市之中驾车行驶, 从一个十字路口到另外一个十字楼口 的距离。其计算方法如下:

d = ∑ k = 1 n ∣ x 1 k − x 2 k ∣ d=\sum_{k=1}^n|x_{1k}-x_{2k}| d=k=1nx1kx2k

二维空间中曼哈顿距离的计算

这里写图片描述

马氏距离

马氏距离表示数据的协方差距离, 是一种尺度无关的度量方式。也就是说马氏距离会先将样本点的各个属性标准化,再计算样本间的距离。其计算方式如下:( s s s是协方差矩阵,如图)
d ( x I , x j ) = ( x i − x j ) T s − 1 ( x i − x j ) d(x_{I},x_{j})=\sqrt{(x_{i}-x_{j})^Ts^{-1}(x_{i}-x_{j})} d(xI,xj)=(xixj)Ts1(xixj)

二维空间中的马氏距离

这里写图片描述

夹角余弦

余弦相似度用向量空间中两个向 量夹角的余弦值作为衡量两个样本差 异的大小。余弦值越接近1,说明两 个向量夹角越接近0度,表明两个向 量越相似。其计算方法如下:
cos ⁡ ( θ ) = ∑ k = 1 n x 1 k x 2 k ∑ k = 1 n x 1 k 2 ∑ k = 1 n x 2 k 2 \cos (\theta)=\frac{\sum_{k=1}^nx_{1k}x_{2k}}{\sqrt{\sum_{k=1}^nx_{1k}^2}\sqrt{{\sum_{k=1}^nx_{2k}^2}}} cos(θ)=k=1nx1k2 k=1nx2k2 k=1nx1kx2k

二维空间中的夹角余弦

这里写图片描述

sklearn中的聚类

  • scikit-库(以后简称sklearn库)提供的常用聚类算法函数包含在sklearn.cluster这个模块中,如:K-Means,近邻传播算法,DBSCAN,等。
  • 以同样的数据集应用于不同的算法,可能会得到不同的结果,算法所耗费的时间也不尽相同,这是由算法的特性决定的。

调用sklearn库的标准函数对不 同数据集执行的聚类结果。

这里写图片描述

sklearn.cluster

sklearn.cluster模块提供的各聚类算法函数可以使用不同的数据形式作为输入:

  • 标准数据输入格式:[样本个数,特征个数]定义的矩阵形式。
  • 相似性矩阵输入格式:即由[样本数目,样本数目]定义的矩阵形式,矩阵中的每一个元素为两个样本的相似度,如DBSCAN,AffinityPropagation(近邻传播算法)接受这种输入。如果以余弦相似度为例,则对角线元素全为1. 矩阵中每 个元素的取值范围为[0,1]。
    这里写图片描述

二、降维

降维,就是在保证数据所具有的代表性 特性或者分布的情况下,将高维数据转化为 低维数据的过程:

  • 数据的可视化
  • 精简数据

这里写图片描述

sklearn中的降维

降维是机器学习领域的一个重要研究内容,有很多被工业界和学术界接受的典型算法,截止到目前sklearn库提供7种降维算法。

###sklearn.decomposition
这里写图片描述

聚类和降维

聚类和降维都是无监督学习的典型任务,任务之间存在关联,比如某些高维数据的聚类可以通过降维处理更好的获得,另外学界研究也表明代表性的聚类算法如k-means与降维算法如NMF之间存在等价性,在此我们就不展 开讨论了,有兴趣的同学可以参考我们推荐的阅读内容。

### 无监督学习算法概述 无监督学习是一种机器学习的方法,在该方法中,算法并不依赖于预先标注的数据集。相反,其目标是在数据内部自动识别并提取潜在的结构和模式[^2]。 #### 主要任务分类 - **聚类分析**:将一组对象按照某种相似度准则划分为多个子组或簇,使得同一簇内的成员尽可能相像而不同簇之间差异较大。 - **关联规则挖掘**:旨在找出大型数据库中的项之间的有趣关系,例如购物篮分析可以揭示顾客购买商品间的联系。 - **降维处理**:减少原始高维空间下的变量数量的同时保留大部分重要信息,有助于简化模型、加速计算以及可视化多维数据分布情况。 ### 应用实例展示 为了更好地理解上述理论描述的应用价值,这里列举几个具体的例子: - **客户细分市场研究**:企业可以通过收集用户的消费行为记录来进行聚类操作,从而划分出不同的消费者群体以便实施精准营销策略[^1]。 - **异常检测系统构建**:金融机构可运用无监督技术监控交易活动流,及时发现偏离正常范围的行为迹象作为欺诈预警信号的一部分输入源之一。 - **图像压缩与特征抽取**:采用主成分分析(PCA)等降维手段可以在保持图片核心视觉特性的前提下大幅降低存储需求;同时也有助于后续高级计算机视觉任务如物体识别前预处理阶段的工作开展[^4]。 ```python from sklearn.decomposition import PCA import numpy as np # 假设X是一个形状为(n_samples, n_features)的numpy数组表示样本集合 pca = PCA(n_components=0.95) # 设置保留95%的信息量 reduced_X = pca.fit_transform(X) print(f"原始特征数:{X.shape[1]}, 经过PCA后的特征数:{reduced_X.shape[1]}") ``` ### 半监督与混合型框架简介 值得注意的是还存在一类介于完全有指导(即传统意义上的‘监督’)同纯粹探索性质两者间过渡地带的技术方案——它们既包含了部分已知类别标签又允许引入大量未知状态的新个体参与进来共同优化最终决策边界位置。这类组合形式涵盖了诸如自训练模型、半监督支持向量机等多种实现途径[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值