反作弊中的无监督算法2_聚类的4种方式及典型算法

最新推荐文章于 2024-04-17 15:54:54 发布

鲸鱼在dn

最新推荐文章于 2024-04-17 15:54:54 发布

阅读量1.2k

点赞数 16

分类专栏：机器学习和深度学习基础 # 广告反作弊算法计算广告文章标签：算法聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41697157/article/details/134559499

版权

文章目录

一、基于原型聚类（K-means）
二、基于密度聚类：DBSCAN原理、参数
三、基于层次聚类
- 1）louvain
- 2）GN算法
四、基于模型的聚类 - 高斯分布（EM方式求解）
- 1、高斯混合模型
无监督算法的评估方式：
- 1、kmeans求解最优k值的方法：轮廓系数、肘部法
- 2、GMM的最优组件个数：AIC 和 BIC
参考文章
kmeans、GMM、DBSCAN的sklearn实现

一、从迭代学习的过程，聚类的方式可分为：
1）基于原型聚类
2）基于密度的聚类
3）基于模型：基于概率模型（高斯混合模型）、基于神经网络的；
4）基于层次聚类：

二、从类或簇的形式分
1）以中心定义的簇：规则形的分布，形状与度量的距离有关
2）以密度定义的簇：对形状不敏感，在处理不规则或缠绕等复杂情况、有噪声和离群点的时候比较合适。
3）以联通定义的簇：这类数据集合中的数据点和数据点之间有连接关系，整个数据簇表现为图结构。它同样对数据形状不敏感。

一、基于原型聚类（K-means）

原型通常指具有连续特征的相似点的质心，或者中心。简单说就是对于一堆待聚类的数据点，先确定最后期望聚成几类，然后挑选几个点作为初始中心点，根据预定的启发式的方法做迭代，直到达到我们的停止条件。在期望聚类数目确定、初始中心点的挑选、噪声和离群点处理，数值以及类别型数据处理方法、引入核方法等具体细节上的不同衍生出了不同的聚类算法，但是毫无疑问最起源的一个算法就是k-means算法，这也是我们这里将要详述的算法[1]。

1) 原理：

随机从样本中挑选k个质心作为初始集群中心
将每个样本分配到最近的质心 $\mu^{(j)}，j∈{1,...,k}$
把质心分配到已分配样本的中心
重复步骤2和3，直到集群赋值不再改变，或者用户达到定义的公差或者最大迭代数。

度量对象之间相似性的方法，欧式距离的平方
距离和相似性的文章：https://cloud.tencent.com/developer/article/1668762

2）优缺点：
优点：极易实现且计算效率也很高。
缺点：必须指定集群数k，k的选择不当会导致性能不良。

3）超参数
分类数量、最大迭代次数

二、基于密度聚类：DBSCAN原理、参数

基于密度的聚类方法：把集群标签分配给样本数据点密集的区域。为了处理以密度为特征的类而设计的算法，最初始的算法为DBSCAN。
1）原理
3种点：
边界点：在半径范围

最低0.47元/天解锁文章

博客等级

码龄7年

34
原创

179
点赞

182
收藏

111
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

计算广告中涉及的设备id：oaid、androidid、imei、idfa、caid
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/618120089。
机器学习中的数据预处理方法
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
uplift在营销领域建模的4种方法
鲸鱼在dn: 是qini曲线那里，也写了要计算曲线下面积吗？如果是的话，感觉没有写错哈。我理解qini曲线和auuc的关系，就像ROC 和AUC的关系，绘制qini曲线后，也主要通过计算曲线下的面积得到一个数值的指标来对比模型的好坏
uplift在营销领域建模的4种方法
denceChen: 关于AUUC与qini系数的对比你是不是写反了
王争《数据结构与算法之美-基础篇》笔记_上篇
优快云-Ada助手: 恭喜你写了第18篇博客！看到你分享王争《数据结构与算法之美-基础篇》的笔记，让我收获颇丰。希望你能继续坚持写作，分享更多有价值的内容。或许下一步你可以尝试结合自己的实践经验，给读者提供更多实用的建议和技巧。期待你的下一篇文章！

大家在看

MySQL面试高频问题全解析：66道经典题带你通关（附答案+场景实战） 427

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。