基于子语言的动词分类定制与语义聚类探索
1. 子语言语义聚类概述
在语义聚类过程中,会选取与聚类中超过半数上下文的关联值高于特定阈值的上下文,不断重复此操作,直至无法再向聚类中添加上下文。尽管该过程仍在测试中,相关阈值和参数也在设定,但它相较于传统分类方法展现出显著优势,具有更高的灵活性,还能隐式解决歧义问题。所提供的上下文包含必要的本体知识,可用于提取聚类组件的不同含义,例如之前的矩阵就发现了两个不同的上下文聚类,呈现出两种不同的语义。
2. 动词分类定制的意义与目标
在自然语言处理中,动词的语义歧义是一个长期存在的难题。为了解决这一问题,我们尝试定义一种基于上下文的统计方法,来约束和定制 WordNet 的类型层次结构,使其适应特定的子语言。具体目标包括:
- 降低初始的歧义性。
- 根据动词在语料库中的相关性对其不同语义进行排序。
- 识别特定领域中典型的新语义。
这些成果对于缺乏人工支持进行词语分类的自然语言处理系统具有重要意义。
3. 现有词义消歧方法的局限性
词义消歧一直是自然语言处理领域的经典难题。近年来,虽然提出了多种基于统计的算法来自动消除句子中词语的歧义,但许多方法因需要对每个歧义词语进行手动训练而难以实际应用。例如,模拟退火方法试图为句子中所有歧义词语选择最优的语义组合,其消歧的源数据是 LDOCE 词典定义和与每个歧义词语相关的主题代码。然而,实验表明,词典中动词的语义定义可能无法准确捕捉动词在特定领域的使用方式。以动词“obtain”为例,在特定语料库中发现的使用模式与韦氏词典的定义并不匹配。因此,我们认为应利用语料库本身来获取消歧线索。
超级会员免费看
订阅专栏 解锁全文
2364

被折叠的 条评论
为什么被折叠?



