词汇化语法与英德语言中的格和词序解析
1. LTAG与基于解释的学习技术
在解析词汇化树邻接文法(LTAG)问题上,基于解释的学习技术(EBL)有了一些新颖的应用。EBL的核心思想是记录过去解决的问题,并在未来遇到类似问题时复用这些解决方案。然而,EBL是否能真正提升使用它的系统性能,目前还不明确。
Rayner是首位在自然语言解析领域研究该技术的人。从EBL的角度看,解析单个句子意味着解释该句子为何属于语法所定义的语言。解析新句子则是从训练句子中寻找类似的解释。具体做法是,让解析树驱动规则扩展过程,当当前节点满足“树裁剪”标准时,停止特定规则的扩展。Samuelsson利用信息论中的熵来自动推导合适大小的树块。
我们的方法虽大致遵循这一方向,但有独特之处:
- 利用LTAG的关键属性,对训练集中句子的解析结果进行直接泛化。
- 将泛化后的解析结果表示为有限状态转换器(FST),据我们所知,这是FST在EBL领域的首次应用。
- 实现训练集解析结果的额外泛化,能直接处理与训练句子长度不一定相同的测试句子。
此外,我们还引入了名为“stapler”的设备,它是一个功能大幅简化的解析器,仅负责项统一和计算修饰语的替代附着方式。结合FST的输出使用“stapler”,能显著提高解析速度。
1.1 LTAG表示对EBL的影响
一个句子的LTAG解析可视为与句子词汇项相关联的基本树序列,以及基本树之间的替换和邻接链接。给定一个LTAG解析,泛化过程非常直接:
- 取消解析中锚定各个基本树的特定词汇项的实例化。
- 取消由锚定词的形态和推导过程贡献的特征值的实例化。
超级会员免费看
订阅专栏 解锁全文
51

被折叠的 条评论
为什么被折叠?



