22、数据聚类与自然语言处理技术解析

数据聚类与自然语言处理技术解析

1. 聚类模型概述

在数据分析中,每个输入通常是 d 维空间中的向量,我们一般将其表示为数字列表。我们的目标是识别相似输入的聚类,并(有时)为每个聚类找到一个代表性的值。

例如,每个输入可以是表示博客文章标题的数字向量,此时目标可能是找到相似文章的聚类,以了解用户的博客主题。或者,假设有一张包含数千种(红、绿、蓝)颜色的图片,需要将其丝网印刷成 10 色版本,聚类可以帮助选择 10 种颜色,使总“颜色误差”最小。

2. K - 均值聚类

2.1 算法原理

K - 均值是最简单的聚类方法之一,需要预先选择聚类的数量 k,然后将输入划分为集合 S1, …, Sk,使得每个点到其所属聚类均值的平方距离总和最小。

由于将 n 个点分配到 k 个聚类有很多种方法,找到最优聚类是一个非常困难的问题。因此,我们采用一种迭代算法,通常能找到较好的聚类结果:
1. 初始化 k 个均值,这些均值是 d 维空间中的点。
2. 将每个点分配给与其最近的均值所在的聚类。
3. 如果没有点的分配发生变化,则停止并保留当前聚类。
4. 如果有点的分配发生变化,则重新计算均值并返回步骤 2。

2.2 代码实现

以下是实现 K - 均值聚类的 Python 代码:

from scratch.linear_algebra import Vector

def num_differences(v1: Vector, v2: Vector) -> in
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值