数据处理与文本分析:聚类算法与写作风格识别
在实际的数据处理和文本分析中,我们常常会遇到各种挑战,比如处理包含缺失值的数据集以及识别文本的写作风格。下面将为大家详细介绍两种不同但又都十分重要的技术方法。
基于平均欧氏距离的 K - 均值聚类算法处理缺失值数据集
在现实世界的数据集中,属性值缺失是非常普遍的现象。传统的 K - 均值算法在处理这类数据集时存在一定的局限性,因此提出了一种新的 K - 均值聚类算法,即 K - means - MDE 和 K - means - HistMDE,它们能够有效处理包含缺失值的数据集。
K - 均值算法原理
K - 均值算法的目标是找到 K 个质心,使得代价函数最小化。其代价函数的表达式为:
[
{c(1), c(2), \cdots, c(K)} = \arg \min_{
{c(1),c(2),\cdots,c(K)}} \sum_{k = 1}^{K} \sum_{x \in C_k} \text{distance}^2(x, c(k))
]
标准的 K - 均值算法会收敛,因为代价函数的值会单调递减。在每次迭代中,新的质心 ( c’(i) ) 满足 ( c(i) = \arg \min_{x \in C_i} \text{distance}^2(x, c) ),并且每个点都会与离它最近的质心关联。
K - means - MDE 算法收敛性
在 K - means - MDE 算法中,代价函数的值同样会单调递减。在关联步骤中,使用 MDE 距离函数,每个点都会与最近的质心关联,无论是规则点还是不完整点。对于每
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



