34、密集向量表示:从共现矩阵到互信息的探索

密集向量表示:从共现矩阵到互信息的探索

1. 奇异值分解与主成分分析

在自然语言处理(NLP)领域,奇异值分解(SVD)和主成分分析(PCA)是常用的降维技术。虽然它们常被视为同一概念,但仍存在一些差异。PCA 可看作是 SVD 的一种实用应用,具有以下特点:
- 通常包含数据标准化或至少进行数据中心化处理。
- 输出维度是程序的一个参数。
- 仅返回 UΣ 或 U 矩阵。

在计算奇异值分解时,我们可以使用 NumPy 库。此外,PyTorch 提供了 torch.linalg.svd 函数,scikit - learn 则提供了 PCA TruncatedSVD 两个类。这两个程序都有设置维度数量的参数,其中 PCA 会对列进行中心化处理,而 TruncatedSVD 可应用于原始矩阵。另外,Facebook 的 fbpca 是 PCA 的快速实现,默认也会对列进行中心化处理。

2. 潜在语义索引(LSI)

潜在语义索引可以将之前用于字符的技术扩展到单词。构建的矩阵中,行对应语料库中的单词,列对应文档或几个单词组成的上下文(如段落)。矩阵元素衡量单词与文档之间的关联强度,例如在某些情况下,矩阵元素可以是单词 - 文档对的原始计数。

Deerwester 等人(1990)使用了类似 tf × idf 的公式来计算关联强度,该公式由从文档计算的局部权重(如词频 tf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值