相似性哈希(Similarity Hashing)
计算文档的哈希值。
输入
- 语料库(Corpus):文档集合。
输出
- 语料库(Corpus):带有 simhash 值作为属性的语料库。
相似性哈希 是一款将文档转化为相似性向量的部件。该部件使用 Moses Charikar 提出的 SimHash 方法。

- 设置参数:
- Simhash 大小(Simhash size):输出属性的数量(对应信息的位数)。
- Shingle 长度(Shingle length):每个 shingle 使用的 token 数量。
- 提交方式:
- 自动提交(C
订阅专栏 解锁全文
562

被折叠的 条评论
为什么被折叠?



