基于非负矩阵和张量分解的自然语言语义与句法模型开发
1. 引言
近年来,非负张量分解(NTF)方法在信息检索、图像处理、机器学习和自然语言处理等领域得到了广泛应用。该方法在处理包含 N 种不同类型对象的数据时,对于检测和分析数据中的关联和关系非常有前景。
在计算语言学中,N 维张量被实现为从大型文本语料库的频率分析中获得的多路数据数组。对 N 维张量进行秩为 k 的分解会生成 N 个矩阵,这些矩阵的 k 列代表了张量的每个维度在潜在语义空间的 k 个因子维度上的映射,是建模和探索 N 维数据数组中语言变量相关性的独特工具。
NTF 方法被视为解决计算语言学问题的有前途的技术。有两项工作特别值得关注,作者描述了用于表示句子中各种类型句法词组合频率的张量模型,如“主语 - 动词 - 宾语”的三维组合,或“主语 - 动词 - 直接宾语 - 间接宾语”的四维组合等,且每个维度对应句子的特定部分。
N 维张量包含文本语料库中词组合集的频率估计,该模型考虑了单词的句法位置。处理大型文本语料库并在张量中积累足够的数据后,会形成一个 N 路数组,其中包含自然语言句子中词汇项的交际属性,如单词倾向参与的句法关系、这些关系指向的其他单词以及相应关系的频率,且这些关系是多维的。
对得到的张量进行非负分解,能显著改变表示模型。原本多维张量稀疏且体积庞大,分解后数据表示为 N 个由 k 列组成的矩阵(k 远小于张量任何一个维度的点数)。参数 k 是分解度、潜在语义空间的维度数和其中的属性维度数。除了更紧凑的数据表示外,还可以通过计算对应于从矩阵中选择的单词的 N 个 k 维向量的分量乘积之和,轻松估计不同句法句子结构中每个可能的单词组合的概率。
超级会员免费看
订阅专栏 解锁全文
1180

被折叠的 条评论
为什么被折叠?



