
大数据分析
文章平均质量分 83
Sun2AM
这个作者很懒,什么都没留下…
展开
-
基于用户的协同过滤算法的电影推荐(稀疏矩阵)含代码和Netflix数据
距离(相似度)关于欧式距离与余弦相似度的计算,在 MATLAB 中都有相应的函数。pdist(X,distance)原创 2018-12-06 16:11:13 · 6343 阅读 · 5 评论 -
分类/聚类结果评判指标: TP, TN, FP, FN,purity(纯度),F-scroe(F分数) python实现
Purity:聚类划分的purity为,其中K是聚类(cluster)的数目,m是整个聚类划分所涉及到的成员个数。下表是对洛杉矶时报的3204篇文章进行k-means聚类的结果,k=6,label数=6。python实现:def purity(cluster, labels, k, label_set): p = np.zeros((k, len(label_set))) ...原创 2018-12-15 13:06:45 · 11805 阅读 · 7 评论 -
KMeans 出现RuntimeWarning: Mean of empty slice.错误
RuntimeWarning: Mean of empty slice. for cent_i in range(k): # 重新计算中心点 k_cluster = data[np.nonzero(cluster == cent_i)] # 加上判断 if len(k_cluster) != 0: ...原创 2018-12-15 18:07:10 · 20384 阅读 · 3 评论 -
python实现K-means聚类算法
python实现KmeansK-Means算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,两个样本点的距离越近,其相似度就越大。在K-means算法中,cluster是由距离靠近的样本点组成的,因此把得到距离接近的cluster作为目标。步骤:指定k个初始质心(centroids),以作为聚类的初始cluster对所有点计算到各个质心的距离,将该点类别标为最近质心的clus...原创 2019-05-24 14:43:45 · 1531 阅读 · 0 评论 -
python实现基于密度的DBscan 聚类算法(含代码和数据
DBscan算法是典型的基于密度的聚类算法,假定类别可以通过样本分布的紧密程度决定。在DBscan算法中,将样本密集的一个区域内的点作为一个cluster,再将相连的clueter聚合为一个cluster。把所有的数据点区分并标记为核心点、边界点和噪音点删除噪音点所有在半径Eps内的核心点间由边相连联通的核心点作为一组成为一个cluster分配每一个边界点到它所落入的核心点半径范围内的...原创 2019-05-24 15:04:36 · 5594 阅读 · 5 评论