- 博客(2)
- 收藏
- 关注
原创 KMeans中k值的选取(python)
数据读取 1.导包 import matplotlib.pyplot as plt from sklearn.metrics import silhouette_score from sklearn.cluster import KMeans 2.读取数据 data = readData("test_data.txt") 用手肘法 看看 不同聚类个数的效果 distortions = [] # 簇内误差平方和 sil_score = [] # 轮廓系数 for i in range(2, 15):
2021-03-05 10:19:25
2520
5
原创 局部敏感哈希——冗余文档发现
冗余文档发现 具体步骤 第一步:Shingling 目的:将文档转化为集合 第二步:最小哈希(针对Jaccard相似度) 最小哈希:将大集合转化为小的签名同时保留其相似度。 签名:表示集合的较短的整数向量,能表示集合间的相似度。 思想是:将每一列C“哈希”成一个小的签名h©,使得sim(C1,C2)等于签名的h(C1)和h(C2)的“相似度”。 目标是:找到一个哈希函数h(·),使得: 如果sim(C1,C2)大,则h(C1)=h(C2)的概率大如果sim(C1,C2)大,则h(C1)=h(C2)的概率大如
2020-12-05 20:59:37
293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人