DataAnalysis-Maggie-Lecture4-降维

数据可视化与降维技巧

最新推荐文章于 2025-08-24 17:00:44 发布

原创最新推荐文章于 2025-08-24 17:00:44 发布 · 221 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

PolyU课程记录专栏收录该内容

7 篇文章

订阅专栏

本文探讨了数据可视化的重要性和直方图的应用，同时深入介绍了处理高维数据时面临的挑战及解决方案。通过案例分析，文章详细阐述了PCA与T-SNE这两种常用的降维算法原理及其在实际场景中的应用。

数据可视化和数据降维
4个主题：直方图2多维的问题3PCA4T-SNE

可视化:Histograms直方图

直方图用来统计数据在不同区间出现的次数。

高维数据：特征很多的数据
e.g.如病人病历包含，姓名，年龄，性别，血压，血糖，等

数据量为n，维度d的数据，其复杂度为O(nd^2)。d的增加，导致复杂度大幅增加，算法时间增加，样本量增大。
e.g.单位长度保持9个样本，保持样本密度下，一维需要9个样本，二维就是81个样本，三维就是729个样本依次，1维情况下要n个样本密度，d维需要n^d个样本。

矛盾产生：在低维下无法解决的问题，我们增加特征，但是样本总量是不变，所以分类效果下降。我们使用分类误差表示分类效果，如下图。

案例讲解：人脸识别中的维数

降维：应对多维的自然想法

降维的动机：数据可视化，大家只习惯看二维，或者伪三维的图片。

PCA和T-SNE是两种在可视化中常用的降维算法，并尽可能保留信息。

主成分分析PCA（principle component analysis）

寻找最准确的数据表达用较少的维。
PCA算法
PCA目标是降维，最直接就是二维转一维。
手法是，向量换基（基向量变换），使得变换后均值两端分隔最大，所以变换成求最值问题。

T-SNE
t-distributed Stochastic Neighbor Embedding

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。