文本聚类与马来西亚皮影戏视觉模拟的研究进展
文本聚类方法及评估
在文本聚类领域,采用了两种操作符来改进解决方案,分别是β操作符和邻域导航。
邻域导航阶段,通过接受规则迭代地采用解X的随机邻域解来改进方案,公式如下:
[x_i = 1 + \text{rand}() \mod K]
β操作符阶段,新解的位置选择有两种方式:一是根据当前解的当前值;二是从可能的搜索空间(即二进制)中随机选择。这基于概率β(β ∈[0, 1]),公式如下:
[x’_i \leftarrow
\begin{cases}
x_p, & \text{if rand} \leq \beta \
x_i, & \text{otherwise}
\end{cases}
]
其中,(x_p \in X)是决策变量(x_i)的可能区域,rand是0或1的随机数,β值固定为0.1。
为了评估文本聚类的效果,使用了四个常见的评估指标:准确率(A)、精确率(P)、召回率(R)和F - 度量(F)。具体计算公式如下:
- F - 度量:
[F(j) = \frac{2 * P(i, j) * R(i, j)}{P(i, j) + R(i, j)}]
- 精确率:
[P(i, j) = \frac{n_{i,j}}{n_j}]
- 召回率:
[R(i, j) = \frac{n_{i,j}}{n_i}]
- 所有聚类的F - 度量值:
[F = \frac{\sum_{j = 1}^{K} F(j)}{K}]
- 准确率: <