24、数据降维与线性回归：概念、方法与优化策略

最新推荐文章于 2025-11-12 07:03:10 发布

onion

最新推荐文章于 2025-11-12 07:03:10 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：数据科学的智慧之道文章标签：数据降维线性回归主成分分析

本文链接：https://blog.youkuaiyun.com/onion/article/details/154897423

数据科学的智慧之道专栏收录该内容

40 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据降维与线性回归：概念、方法与优化策略

1. 数据降维的案例与方法

在对历史人物进行分析时，我们运用了诸如主成分分析（PCA）和奇异值分解（SVD）等降维方法。最初，我们分析了维基百科的结构和内容，从英文版中约 80 多万篇人物文章里提取了诸如 PageRank 和文章长度等六个特征，将每个人物简化为一个六维特征向量，以此判断他们的相对重要性。

然而，事情并非如我们预想的那般简单。每个特定变量所排名最高的人物差异巨大，难以对其进行解读。合著者查尔斯指出特征中存在大量方差和随机噪声，于是提出使用因子分析这一方法。因子分析是 PCA 的一种变体，而 PCA 又是 SVD 的一种变体，这些技术的目的是将特征矩阵压缩为一组更小的变量或因子，使这些因子能够解释全量特征矩阵的大部分方差。

我们原本期望因子分析能提取出一个定义个人重要性的潜在因子，但输入变量却产生了两个独立的因子来解释数据，它们分别解释了约 31%和 28%的方差，这表明这些潜在变量的重要性大致相当。查尔斯将这两个因子命名为“声望（gravitas）”和“名气（celebrity）”。

声望因子主要来源于两种形式的 PageRank，它似乎能准确捕捉基于成就的认可概念；而名气因子则更多地依赖于页面点击量、修订次数和文章长度，更能体现大众（有人可能会说是低俗）的声誉概念。例如，歌手、演员和其他艺人的影响力用名气因子衡量更为合适。

通过对比每个因子排名最高的人物，我们能更清晰地感受到声望和名气的区别。声望较高的人物通常是哲学家、国王和政治家等有地位和成就的传统重量级人物；而名气较高的人物则多是职业摔跤手、演员和歌手等，其中只有布兰妮·斯皮尔斯和迈克尔·杰克逊在声望 - 名气衡量中显示出了一