自然语言形式化中的词汇与形态分析
1. 罗马数字对词法分析的干扰
罗马数字会干扰词法分析,因为它们与常规单词形式难以区分。例如,“CM”既可以表示900(罗马数字),也可以表示“centimeter”(厘米);“IV”既可以表示4(罗马数字),也可以表示“intravenous”(静脉注射)。将罗马数字的语法与常规词典结合应用,能够表示单词与罗马数字之间的歧义。后续的句法或语义分析则需要结合单词的句法或语义上下文来解决这些词法歧义。
2. 大写单词的处理
大多数欧洲语言采用大小写字母系统。大写字母通常用于标记专有名词或句子的开头。为了从单词形式中识别词汇单元(ALUs),常常需要将包含一个或多个大写字母的单词改写为小写形式。词法分析器根据大小写处理三种类型的单词形式:
- 全小写单词 :例如“table”。识别这类单词时,只需查阅词典。如果在词典中未找到该单词,则认为其拼写错误(此时可运行自动拼写校正器)。
- 首字母大写或全大写的单词 :如“When”“Joe”“INTRODUCTION”“IBM”等。识别这类单词通常需要查阅两个词典:一个是常用词词典(因为所有常用词可能会在句子开头或标题中以大写形式出现),另一个是专有名词词典。
- 更通用的单词形式 :像“McCarthy”“RedOw”“kW”“dnaC”等。这些专有名词和首字母缩写词应列在特定的词典中。
在严格的语言项目范围内,构建一个详尽的专有名词词典是不可行的。因为它需要包含美国、英国和世界上所有的人名、地名、社会组织名、品牌名、产品名等,甚至可能是无限的,因为作
超级会员免费看
订阅专栏 解锁全文
1385

被折叠的 条评论
为什么被折叠?



