句子结构分析:从语法困境到上下文无关文法
一、引言
在自然语言处理中,仅仅分析单词以及词序模式远远不够,我们需要一种方法来处理自然语言中著名的歧义问题,同时要应对可能存在无限数量句子的情况。接下来,我们将深入探讨如何使用形式语法描述无限句子集合的结构、如何用语法树表示句子结构以及解析器如何分析句子并自动构建语法树。
二、一些语法困境
(一)语言数据与无限可能性
在处理电子语言数据时,我们会思考一个巨大的英语语料库是否能代表“现代英语”。实际上,即使在网络上能找到像 “New man at the of IMG” 这样包含 “the of” 词序的例子,但英语使用者会认为这些大多是错误的,不属于英语的一部分。这表明 “现代英语” 并不等同于语料库中所有的词序集合,英语使用者能够判断某些词序是否符合语法。
另一方面,句子具有可以嵌入更大句子的特性。例如:
- a. Usain Bolt broke the 100m record.
- b. The Jamaica Observer reported that Usain Bolt broke the 100m record.
- c. Andre said The Jamaica Observer reported that Usain Bolt broke the 100m record.
- d. I think Andre said the Jamaica Observer reported that Usain Bolt broke the 100m record.
如果用符号 S 代替整个句子,我们会看到 “Andr
超级会员免费看
订阅专栏 解锁全文
1754

被折叠的 条评论
为什么被折叠?



