数据聚类与自然语言处理技术解析
1. 聚类模型概述
在数据分析中,每个输入通常是 d 维空间中的向量,我们一般将其表示为数字列表。我们的目标是识别相似输入的聚类,并(有时)为每个聚类找到一个代表性的值。
例如,每个输入可以是表示博客文章标题的数字向量,此时目标可能是找到相似文章的聚类,以了解用户的博客主题。或者,假设有一张包含数千种(红、绿、蓝)颜色的图片,需要将其丝网印刷成 10 色版本,聚类可以帮助选择 10 种颜色,使总“颜色误差”最小。
2. K - 均值聚类
2.1 算法原理
K - 均值是最简单的聚类方法之一,需要预先选择聚类的数量 k,然后将输入划分为集合 S1, …, Sk,使得每个点到其所属聚类均值的平方距离总和最小。
由于将 n 个点分配到 k 个聚类有很多种方法,找到最优聚类是一个非常困难的问题。因此,我们采用一种迭代算法,通常能找到较好的聚类结果:
1. 初始化 k 个均值,这些均值是 d 维空间中的点。
2. 将每个点分配给与其最近的均值所在的聚类。
3. 如果没有点的分配发生变化,则停止并保留当前聚类。
4. 如果有点的分配发生变化,则重新计算均值并返回步骤 2。
2.2 代码实现
以下是实现 K - 均值聚类的 Python 代码:
from scratch.linear_algebra import Vector
def num_differences(v1: Vector, v2: Vector) -> in
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



