政治书籍聚类与因子分析模型解析
1. 政治书籍聚类分析
在政治书籍的研究中,通过对书籍的共购信息(矩阵 A)进行分析,运用特定算法对书籍进行聚类。初始设定最大团数 (C_{max}=200),Beta 参数 (a = 1),(b = 3),陡度 (\beta = 10) 时,最可能的后验边际解包含 142 个团,能完美重构邻接矩阵 A。但此团矩阵过大,不利于数据的紧凑解释,因为团的数量比书籍数量还多。
为更积极地聚类数据,固定 (C_{max}=10) 重新运行算法,得到近似团分解 (A \approx H(FFT))。生成的 105×10 近似团矩阵展示了每本书可属于多个聚类。有趣的是,仅基于邻接矩阵找到的聚类与每本书的政治倾向有一定对应关系,团 5、6、7、8、9 主要对应“保守派”书籍。多数书籍属于多个团/聚类,表明它们并非单一主题书籍,符合混合成员模型的假设。
以下是部分政治书籍列表:
|书籍名称|
|–|
|《1000 Years for Revenge》|
|《Bush vs. the Beltway》|
|《Charlie Wilson’s War》|
|《Losing Bin Laden》|
|《Sleeping With the Devil》|
|…|
这些书籍被一位政治敏锐的读者按政治倾向分为自由派(红色)、保守派(绿色)和中立派(黄色)三组。
2. 混合模型概述
混合模型是离散潜变量模型,可使用最大似然法进行训练。经典的训练方法是使用 EM 算法,不过基于梯度的方法也是可行的。
标准混合模型假设每
政治书籍聚类与因子分析
超级会员免费看
订阅专栏 解锁全文
84

被折叠的 条评论
为什么被折叠?



