利用 MLlib 实现智能数据分析与线性回归建模
1. 分析列余弦相似度
在数据分析中,理解列余弦相似度是一项很有帮助的工作。列余弦相似度表示将两列视为向量时它们之间的夹角。类似的方法也可用于其他目的,例如寻找相似的产品或文章。
可以从 RowMatrix 对象获取列余弦相似度:
val housingColSims = housingMat.columnSimilarities()
需要注意的是, columnSimilarities 方法在 Python 中不可用。
得到的对象是一个分布式的 CoordinateMatrix ,包含一个上三角矩阵(上三角矩阵仅在对角线上方包含数据)。在得到的 housingColSims 矩阵中,第 i 行和第 j 列的值衡量了 housingMat 矩阵中第 i 列和第 j 列之间的相似度。 housingColSims 矩阵中的值范围从 -1 到 1。值为 -1 表示两列的方向完全相反;值为 0 表示它们相互正交;值为 1 表示两列(向量)具有相同的方向。
查看该矩阵内容的最简单方法是使用 toBreezeD 方法将其转换为 Breeze 矩阵,然后使用 printMat 实用方法打印输出。操作步骤如下:
1. 将 printMat
超级会员免费看
订阅专栏 解锁全文
4171

被折叠的 条评论
为什么被折叠?



