大数据利用与高维数据可视化:PCA与t - SNE的比较
1. 大数据的利用策略
在处理图像数据和用户帖子时,可将传统机器学习模型与深度学习模型集成,对于用户帖子还可使用朴素贝叶斯文本模型。另外,也可以直接使用文档向量,将其300维视为300个独立预测变量,监督学习算法可据此确定哪些与预测用户性别相关。
为非结构化文本块创建文档向量,并将所得嵌入值用作监督学习的预测变量,这种策略可广泛用于提升传统机器学习方法的性能。许多数据集包含非结构化文本字段,由于其复杂性或无法训练语言模型,这些字段在传统模型中常未被使用。但通过预训练词嵌入进行相对简单的转换,文本数据就能与其他预测变量一起用于模型。因此,在遇到此类机器学习任务时,没有理由不采用这种方法,为学习算法融入大数据。
2. 高维数据可视化的挑战
数据探索是机器学习项目的五个关键步骤之一,但会受到“维度诅咒”的影响,即随着特征数量增加,项目难度会不断增大。适用于简单数据集的可视化技术,在维度数变得难以管理时可能会失效。例如,散点图矩阵可能有助于识别十几个特征之间的关系,但当特征数量增加到数十或数百个时,原本有用的可视化可能很快变成信息过载。
我们能相对轻松地解读二维甚至三维图,但要理解四维或更多维度之间的关系,则需要完全不同的方法。由于我们的大脑最多适应三维视觉,且大部分智力工作是在二维表面(如黑板、白板、纸张或电脑屏幕)上进行,我们习惯最多以二维方式呈现数据。在虚拟或增强现实计算机界面更普及之前,需要能在不超过二维的情况下展示高维关系的工具。
将高维可视化降维到二维看似不可能,但指导这一过程的前提却很简单:在高维空间中位置相近的点,在二维空间中也应位置相近。这与嵌入的概
PCA与t-SNE在大数据可视化中的应用
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



