18、自然语言形式化中的词汇与形态分析

自然语言形式化中的词汇与形态分析

1. 罗马数字对词法分析的干扰

罗马数字会干扰词法分析,因为它们与常规单词形式难以区分。例如,“CM”既可以表示900(罗马数字),也可以表示“centimeter”(厘米);“IV”既可以表示4(罗马数字),也可以表示“intravenous”(静脉注射)。将罗马数字的语法与常规词典结合应用,能够表示单词与罗马数字之间的歧义。后续的句法或语义分析则需要结合单词的句法或语义上下文来解决这些词法歧义。

2. 大写单词的处理

大多数欧洲语言采用大小写字母系统。大写字母通常用于标记专有名词或句子的开头。为了从单词形式中识别词汇单元(ALUs),常常需要将包含一个或多个大写字母的单词改写为小写形式。词法分析器根据大小写处理三种类型的单词形式:
- 全小写单词 :例如“table”。识别这类单词时,只需查阅词典。如果在词典中未找到该单词,则认为其拼写错误(此时可运行自动拼写校正器)。
- 首字母大写或全大写的单词 :如“When”“Joe”“INTRODUCTION”“IBM”等。识别这类单词通常需要查阅两个词典:一个是常用词词典(因为所有常用词可能会在句子开头或标题中以大写形式出现),另一个是专有名词词典。
- 更通用的单词形式 :像“McCarthy”“RedOw”“kW”“dnaC”等。这些专有名词和首字母缩写词应列在特定的词典中。

在严格的语言项目范围内,构建一个详尽的专有名词词典是不可行的。因为它需要包含美国、英国和世界上所有的人名、地名、社会组织名、品牌名、产品名等,甚至可能是无限的,因为作

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值