自然语言处理的挑战与统计方法的应对
语言的歧义性:自然语言处理为何困难
自然语言处理(NLP)系统需要确定文本的结构,通常至少要能回答“谁对谁做了什么”这样的问题。传统的解析系统仅依据某些词类组合可能的语法结构来回答这个问题。
例如,对于句子 “Our company is training workers”,一个标准的 NLP 系统会给出 3 种句法分析:
- a. Our company is V training workers
- b. Our company V NP is V training workers
- c. Our company V is N training workers
其中,a 是人类能感知的分析,“is” 是动词组;另外两种分析中 “is” 是主要动词,b 中其余部分是动名词,c 中 “training” 修饰 “workers”。后两种分析在语义上是异常的,但在大多数当前系统中,语义分析通常在句法分析之后进行(如果进行的话)。
随着句子变长和语法规则变得更复杂,这种歧义会导致解析数量急剧增加。例如,Martin 等人(1987)的系统为 “List the sales of the products produced in 1973 with the products produced in 1972” 给出了 455 种解析。
因此,一个实用的 NLP 系统必须善于做出关于词义、词类、句法结构和语义范围的决策。然而,在符号 NLP 系统中,最大化覆盖范围同时最小化歧义的目标从根本上是不一致的。扩展语法覆盖范围会增加常见句子的不必要解析数量,反之亦然。
超级会员免费看
订阅专栏 解锁全文
1495

被折叠的 条评论
为什么被折叠?



