球面嵌入、分类与多语言文档语言检测的研究
在数据分析和模式识别领域,球面嵌入和分类以及多语言文档中的语言检测与跟踪是两个重要的研究方向。下面将详细介绍这两方面的研究内容。
球面嵌入与分类
在找到新的点位置 $x_i$ 后,我们通过指数映射(exp - map)将新点定位到球面流形上,公式如下:
$p’_i = p_i \cos \theta + \frac{\sin \theta}{\theta} x_i$ (21)
除了在球面流形上嵌入距离,在流形中执行分类等操作也很重要。一些分类器在球面流形上很容易实现,如最近邻(NN)分类器。而其他利用几何信息的分类器则需要进行修改,以适应弯曲空间的非欧几里得几何特性。这里我们讨论非平面流形中的最近均值分类器(NMC)。
流形上一组点的内在均值可以通过广义均值来计算:
$\overline{P} = \arg \min_P \sum_i d_g(P, P_i)$ (22)
我们可以使用涉及指数映射的迭代过程来求解流形中一组点的均值:
$m^{(k + 1)} = Exp_{m^{(i)}} \frac{1}{n} \sum_i Log_{m^{(i)}} p_i$ (23)
虽然这个过程在一般流形中的收敛性不能保证,但在超球面上表现良好。因此,我们可以计算每个类别的均值 $m_1, \ldots, m_C$ 并实现 NMC:
$c^* = \arg \min_c \left( r \cos^{-1} \frac{\langle x, m_c \rangle}{r^2} \right)$ (24)
为了验证方法的有效性,我们
球面嵌入与多语言检测研究
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



