句子结构分析:从语法困境到上下文无关语法
在自然语言处理中,对句子结构的分析是一项至关重要的任务。之前我们主要关注单词的识别、结构分析、词汇分类和意义提取,以及词序列模式的识别。然而,这些方法只是触及了句子复杂约束的表面。我们需要应对自然语言中著名的歧义问题,同时还要处理可能存在无限数量句子的情况,而我们只能编写有限的程序来分析它们的结构并发现其意义。
语法困境
语言数据与无限可能性
在处理大量电子语言数据时,我们面临着挑战。即使有一个包含过去50年所有英语话语和书面文本的巨大语料库,我们也不能简单地将其称为“现代英语”。例如,在网络上很容易找到“the of”这样的词序列,但英语使用者会认为大多数这样的例子是错误的,不属于英语的一部分。
另一方面,我们可以轻松地构造一个新句子,并且英语使用者会认为它是完全正确的英语。句子具有可以嵌入更大句子的有趣特性。例如:
- a. Usain Bolt broke the 100m record.
- b. The Jamaica Observer reported that Usain Bolt broke the 100m record.
- c. Andre said The Jamaica Observer reported that Usain Bolt broke the 100m record.
- d. I think Andre said the Jamaica Observer reported that Usain Bolt broke the 100m record.
如果我们用符号S替换整个句子,就会看到像 “Andre said
超级会员免费看
订阅专栏 解锁全文
1374

被折叠的 条评论
为什么被折叠?



