61、大数据利用与高维数据可视化:PCA与t - SNE的比较

PCA与t-SNE在大数据可视化中的应用

大数据利用与高维数据可视化:PCA与t - SNE的比较

1. 大数据的利用策略

在处理图像数据和用户帖子时,可将传统机器学习模型与深度学习模型集成,对于用户帖子还可使用朴素贝叶斯文本模型。另外,也可以直接使用文档向量,将其300维视为300个独立预测变量,监督学习算法可据此确定哪些与预测用户性别相关。

为非结构化文本块创建文档向量,并将所得嵌入值用作监督学习的预测变量,这种策略可广泛用于提升传统机器学习方法的性能。许多数据集包含非结构化文本字段,由于其复杂性或无法训练语言模型,这些字段在传统模型中常未被使用。但通过预训练词嵌入进行相对简单的转换,文本数据就能与其他预测变量一起用于模型。因此,在遇到此类机器学习任务时,没有理由不采用这种方法,为学习算法融入大数据。

2. 高维数据可视化的挑战

数据探索是机器学习项目的五个关键步骤之一,但会受到“维度诅咒”的影响,即随着特征数量增加,项目难度会不断增大。适用于简单数据集的可视化技术,在维度数变得难以管理时可能会失效。例如,散点图矩阵可能有助于识别十几个特征之间的关系,但当特征数量增加到数十或数百个时,原本有用的可视化可能很快变成信息过载。

我们能相对轻松地解读二维甚至三维图,但要理解四维或更多维度之间的关系,则需要完全不同的方法。由于我们的大脑最多适应三维视觉,且大部分智力工作是在二维表面(如黑板、白板、纸张或电脑屏幕)上进行,我们习惯最多以二维方式呈现数据。在虚拟或增强现实计算机界面更普及之前,需要能在不超过二维的情况下展示高维关系的工具。

将高维可视化降维到二维看似不可能,但指导这一过程的前提却很简单:在高维空间中位置相近的点,在二维空间中也应位置相近。这与嵌入的概

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值