索引扩展:原理、方法与优化策略
1. 欧几里得距离与向量范数
在数值向量的处理中,向量的范数代表其大小,可将向量表示为单个标量值。最常用的欧几里得距离公式如式(13.10)所示,同时,我们需要找到对欧几里得距离值进行归一化的方法。
2. 表格相似度
2.1 表格表示单词的研究进展
近年来,有研究提出将单词编码为表格作为一种替代表示方式。此前已有相关研究尝试将文本编码为表格用于文本分类。例如,2007 年 Jo 和 Cho 首次尝试将文本编码为表格以进行文本分类;2015 年 Jo 提出了表格间相似度度量方法,并将其表示为归一化值;2018 年 Jo 对 KNN 算法进行修改,提出基于表格的版本用于文本分类。
2.2 单词转换为表格的过程
- 准备包含多个文本的语料库。
- 从语料库中收集包含目标单词的文本。
- 计算每个文本中该单词的权重。
- 表示该单词的表格由多个条目组成,每个条目包含文本标识符和权重。为了提高处理效率,可通过移除权重较低的条目来缩小表格规模。
2.3 表格相似度计算
将两个单词按照上述过程编码为表格后,提取两个表格中的共享文本标识符,并计算其占总条目的比例。该比例即为表格间的相似度,取值范围在 0 到 1 之间,这些共享文本标识符代表了两个单词在文本中的搭配情况。
3. 扩展方案
3.1 关联单词
3.1.1 关联单词的检索依据
关联单词对于索引扩展至关重要。通过相似度度
超级会员免费看
订阅专栏 解锁全文
173万+

被折叠的 条评论
为什么被折叠?



