Topic-Based Vector Space Model

TVSM(主题基础向量空间模型)为文档比较提供了一种理论基础,它通过将文档转换为向量并利用向量间的夹角余弦值来衡量文档之间的相似度。这种模型假设文档的基本主题相互独立,构建了一个多维空间,使得文档可以在这个空间中被表示并进行比较。

TVSM是Document Comparison之类应用的基础理论。对一个文档集进行抽象,所有的基本topic都相互正交(独立),构造出一个D维的空间,每个term都由一个向量来表示,例如与文档主题基本不关的of,the等词语的向量权值(长度)就理论上是0,关键词语的权重就接近1,并且和某个坐标轴的夹角很小。文档di就可以用其所有术语的词频乘以该术语的向量求和算得,一般情况下腰归一化,便于计算。而两个文档的相关程度(亦可理解成文档之间的距离)就可以用两个向量的夹角余弦值来表示。

文档之间一旦建立了某种联系,就能够将类似的文档归类索引,所以这同TF-IDF一样是至关重要的理论基础。

具体可参考Jorg Becker & Dominik Kuropka的 《Topic-Based Vector Space Model》这篇老文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值