4.无监督学习
利用无标签的数据学习数据的分布或数据与数据之间的关系。
有监督学习和无监督学习的最大区别在于数据是否有标签
无监督学习最常用的场景是聚类和降维。
聚类,就是根据数据的“相似性”将数据分为多类的过程。
so,如何定义相似性?
根据两个样本之间的距离。
欧式距离 几何距离
曼哈顿距离 也称街区距离 个人理解就是直角三角形两直角边的和
马氏距离 表示数据的协方差距离,是一种尺度无关的度量方式。也就是说马氏距离会先将样本点的各个属性标准化,再计算样本间的距离。 (感觉马氏距离比较难理解)
余弦相似度 用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近1,说明两个向量夹角越接近0度,说明两个向量越相似。
以同样的数据集应用于不同的算法可能会得到不同的结果,这是由算法特性决定的。
sklearn.cluster
数据标准输入格式:[样本个数,特征个数]定义的矩阵形式。
相似度矩阵输入格式
sklearn.cluster几个有代表性的聚类方法的参数与特性
| 算法名称 | 参数 | 可扩展性 | 相似性度量 |
|---|---|---|---|
| K-means | 聚类个数 | 大规模数据 | 点间距离 |
| DBSCAN | 邻域大小 | 大规模数据 | 点间距离 |
| Gaussian Mixtures | 聚类个数及其他超参 | 复杂度高,不适合处理大规模数据 | 马氏距离 |
| Birch | 分支因子,阈值等其他超参 | 大规模数据 | 两点间的欧式距离 |
降维,就是在保证数据所具有的代表性特性或者分布的情况下,将高维数据转化为低位数据的过程。
通常用于:
数据可视化
精简数据,中间过程,提高机器学习算法效率
降维过程也可以理解为对数据集的组成成分进行分解(decomposition)的过程,因此sklearn为降维模块命名为decomposition,在对降维算法调用需要使用sklearn.decomposition模块。
sklearn.decomposition里的几个常用降维算法
| 算法名称 | 参数 | 可拓展性 | 适用任务 |
|---|---|---|---|
| PCA | 所降维度及其他超参 | 大规模数据 | 信号处理等 |
| FastICA | 所降维度及其他超参 | 超大规模数据 | 图形图像特征提取 |
| NMF | 所降维度及其他超参 | 大规模数据 | 图形图像特征提取 |
| LDA | 所降维度及其他超参 | 大规模数据 | 文本数据,主题挖掘 |
3444

被折叠的 条评论
为什么被折叠?



