数据降维与线性回归:概念、方法与优化策略
1. 数据降维的案例与方法
在对历史人物进行分析时,我们运用了诸如主成分分析(PCA)和奇异值分解(SVD)等降维方法。最初,我们分析了维基百科的结构和内容,从英文版中约 80 多万篇人物文章里提取了诸如 PageRank 和文章长度等六个特征,将每个人物简化为一个六维特征向量,以此判断他们的相对重要性。
然而,事情并非如我们预想的那般简单。每个特定变量所排名最高的人物差异巨大,难以对其进行解读。合著者查尔斯指出特征中存在大量方差和随机噪声,于是提出使用因子分析这一方法。因子分析是 PCA 的一种变体,而 PCA 又是 SVD 的一种变体,这些技术的目的是将特征矩阵压缩为一组更小的变量或因子,使这些因子能够解释全量特征矩阵的大部分方差。
我们原本期望因子分析能提取出一个定义个人重要性的潜在因子,但输入变量却产生了两个独立的因子来解释数据,它们分别解释了约 31%和 28%的方差,这表明这些潜在变量的重要性大致相当。查尔斯将这两个因子命名为“声望(gravitas)”和“名气(celebrity)”。
声望因子主要来源于两种形式的 PageRank,它似乎能准确捕捉基于成就的认可概念;而名气因子则更多地依赖于页面点击量、修订次数和文章长度,更能体现大众(有人可能会说是低俗)的声誉概念。例如,歌手、演员和其他艺人的影响力用名气因子衡量更为合适。
通过对比每个因子排名最高的人物,我们能更清晰地感受到声望和名气的区别。声望较高的人物通常是哲学家、国王和政治家等有地位和成就的传统重量级人物;而名气较高的人物则多是职业摔跤手、演员和歌手等,其中只有布兰妮·斯皮尔斯和迈克尔·杰克逊在声望 - 名气衡量中显示出了一
超级会员免费看
订阅专栏 解锁全文
1117

被折叠的 条评论
为什么被折叠?



