依赖解析、语法网络与循环神经网络在序列分析中的应用
1. 依赖解析与线性化
依赖解析旨在构建句子中单词之间的关系映射,形成依赖解析树。例如,在句子中“我”和“出租车”分别是“乘坐”这个动词的主语和直接宾语,它们在依赖解析树中作为“乘坐”的子节点。
将树结构表示为序列的一种方法是线性化。对于一个有根节点 R 以及子节点 A、B、C(分别通过边 r_a、r_b、r_c 连接)的图,可将其线性表示为 (R, r_a, A, r_b, B, r_c, C)。对于更复杂的图,若节点 B 还有子节点 D 和 E(分别通过边 b_d、b_e 连接),则可表示为 (R, r_a, A, r_b, [B, b_d, D, b_e, E], r_c, C)。
把依赖解析问题看作一个序列到序列(seq2seq)问题时,即读取输入句子并输出表示其依赖解析线性化的标记序列。然而,这与之前词性标注(POS tagging)问题不同,词性标注中单词和词性标签有明确的一对一映射,且可通过上下文确定词性。但在依赖解析中,句子中单词的顺序与线性化标记的顺序没有明确关系,还需要识别可能跨越大量单词的边,这似乎违背了不考虑长期依赖的假设。
2. 弧标准系统
为了更易于处理依赖解析问题,可将其重新视为寻找一系列有效“动作”以生成正确依赖解析的过程,这就是弧标准系统。
在弧标准系统中,首先将句子的前两个单词放入栈中,其余单词放在缓冲区。在每一步,有三种可能的动作:
- SHIFT :将一个单词从缓冲区移动到栈的前端。
- LEFT ARC :将栈前端的两个元素合并为
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



