
数据挖掘
Luara_lyy
一个走在路上的数据挖掘工程师
展开
-
基于 Python 的 11 种经典数据降维算法|LPP(Locality Preserving Projections)
LPP(Locality Preserving Projections)LPP 即局部保留投影算法,其思路和拉普拉斯特征映射类似,核心思想为通过最好的保持一个数据集的邻居结构信息来构造投影映射,但 LPP 不同于 LE 的直接得到投影结果,它需要求解投影矩阵。 LPP 降维算法展示详情请参见《局部保留投影算法 (LPP) 详解》:https://blog.youkuaiyun.com/qq_39...转载 2019-12-15 21:39:34 · 3062 阅读 · 0 评论 -
基于 Python 的 11 种经典数据降维算法|LE(Laplacian Eigenmaps)降维算法
LE 即拉普拉斯特征映射,它与 LLE 算法有些相似,也是以局部的角度去构建数据之间的关系。它的直观思想是希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近;以这种方式,可以得到一个能反映流形的几何结构的解。 LE 降维算法展示详细内容可参见《拉普拉斯特征图降维及其 python 实现》:https://blog.youkuaiyun.com/HUSTLX/article/detai...转载 2019-12-15 21:36:59 · 1658 阅读 · 0 评论 -
基于 Python 的 11 种经典数据降维算法|t-SNE降维算法
t-SNE降维算法t-SNE 也是一种非线性降维算法,非常适用于高维数据降维到 2 维或者 3 维进行可视化。它是一种以数据原有的趋势为基础,重建其在低纬度(二维或三维)下数据趋势的无监督机器学习算法。下面的结果展示参考了源代码,同时也可用 tensorflow 实现(无需手动更新参数)。 t-SNE 降维算法展示详细内容可参见《t-SNE 使用过程中的一些坑》:http://bi...转载 2019-12-15 21:34:33 · 677 阅读 · 0 评论 -
基于 Python 的 11 种经典数据降维算法|ISOMAP
Isomap 即等度量映射算法,该算法可以很好地解决 MDS 算法在非线性结构数据集上的弊端。MDS 算法是保持降维后的样本间距离不变,Isomap 算法则引进了邻域图,样本只与其相邻的样本连接,计算出近邻点之间的距离,然后在此基础上进行降维保距。 ISOMAP 降维算法展示详细内容可参见《Isomap》https://blog.youkuaiyun.com/zhangweiguo_717/art...转载 2019-12-15 21:28:26 · 1302 阅读 · 0 评论 -
基于 Python 的 11 种经典数据降维算法|MDS(multidimensional scaling)降维算法
MDS(multidimensional scaling)MDS 即多维标度分析,它是一种通过直观空间图表示研究对象的感知和偏好的传统降维方法。该方法会计算任意两个样本点之间的距离,使得投影到低维空间之后能够保持这种相对距离从而实现投影。由于 sklearn 中 MDS 是采用迭代优化方式,下面实现了迭代和非迭代的两种。 MDS 降维算法展示详细内容可参见《MDS 算法》https:...转载 2019-12-15 21:25:28 · 2165 阅读 · 0 评论 -
基于 Python 的 11 种经典数据降维算法|线性-LDA(Linear Discriminant Analysis)降维算法
线性- LDA(Linear Discriminant Analysis)降维算法LDA 是一种可作为特征抽取的技术,其目标是向最大化类间差异,最小化类内差异的方向投影,以利于分类等任务即将不同类的样本有效的分开。LDA 可以提高数据分析过程中的计算效率,对于未能正则化的模型,可以降低维度灾难带来的过拟合。 LDA 降维算法展示详细内容可参见《数据降维—线性判别分析(LDA)》:ht...转载 2019-12-15 21:19:26 · 577 阅读 · 0 评论 -
基于 Python 的 11 种经典数据降维算法|KPCA降维算法
KPCA(kernel PCA)KPCA 是核技术与 PCA 结合的产物,它与 PCA 主要差别在于计算协方差矩阵时使用了核函数,即是经过核函数映射之后的协方差矩阵。引入核函数可以很好的解决非线性数据映射问题。kPCA 可以将非线性数据映射到高维空间,在高维空间下使用标准 PCA 将其映射到另一个低维空间。 KPCA 降维算法展示详细内容可参见 《Python 机器学习》之特征抽取—...转载 2019-12-15 21:10:44 · 2863 阅读 · 1 评论 -
基于 Python 的 11 种经典数据降维算法|主成分分析(PCA)降维
主成分分析(PCA)降维 PCA 是一种基于从高维空间映射到低维空间的映射方法,也是最基础的无监督降维算法,其目标是向数据变化最大的方向投影,或者说向重构误差最小化的方向投影。它由 Karl Pearson 在 1901 年提出,属于线性降维方法。与 PCA 相关的原理通常被称为最大方差理论或最小误差理论。这两者目标一致,但过程侧重点则不同。 最大方差理论降维原理 将一组 N 维向...转载 2019-12-15 17:03:13 · 708 阅读 · 0 评论 -
基于 Python 的 11 种经典数据降维算法---数据挖掘
基于 Python 的 11 种经典数据降维算法—数据挖掘 通常,我们会发现大部分数据集的维度都会高达成百乃至上千,而经典的 MNIST,其维度都是 64。我们所用到的有用信息却并不需要那么高的维度,而且每增加一维所需的样本个数呈指数级增长,这可能会直接带来极大的「维数灾难」。而数据降维,也常应用于文本处理、人脸识别、图片识别、自然语言处理等领域。数据降维:高维数据下降为低维数据(1)使...原创 2019-12-15 16:03:46 · 575 阅读 · 0 评论