向量空间模型(Vector Space Model)
M个无序特征项ti ,词根/词/短语/其他
每个文档dj可以用特征项向量来表示
(a1j,a2j,…,aMj)
权重计算,N个训练文档
AM*N= (aij)
文档相似度比较
1)Cosine计算,余玄计算的好处是,正好是一个介于0到1的数,如果向量一直就是1,如果正交就是0,符合相似度百分比的特性,余玄的计算方法为,向量内积/各个向量的模的乘积.
2)内积计算,直接计算内积,计算强度低,但是误差大.
本文介绍了向量空间模型(Vector Space Model)的基本概念及其在文档表示中的应用。通过使用M个无序特征项来表示每个文档,并利用N个训练文档构成矩阵进行权重计算。文中详细解释了两种文档相似度计算方法:余弦相似度和内积计算,前者能够提供介于0到1之间的相似度百分比,而后者虽然计算简单但误差较大。
向量空间模型(Vector Space Model)
M个无序特征项ti ,词根/词/短语/其他
每个文档dj可以用特征项向量来表示
(a1j,a2j,…,aMj)
权重计算,N个训练文档
AM*N= (aij)
文档相似度比较
1)Cosine计算,余玄计算的好处是,正好是一个介于0到1的数,如果向量一直就是1,如果正交就是0,符合相似度百分比的特性,余玄的计算方法为,向量内积/各个向量的模的乘积.
2)内积计算,直接计算内积,计算强度低,但是误差大.

被折叠的 条评论
为什么被折叠?