18、语料库在词典编纂中的应用与价值

语料库在词典编纂中的应用与价值

1. 词典收录单元类型

词典的收录单元可分为单字词、多字词和非字词单元。单字词和多字词以自由形式存在,包含复合词、重叠词、成语、短语、谚语、搭配、引文、固定表达等。非字词单元通常指那些不被视为常规单词,但被当作构词元素的词典词汇,以黏着形式存在,包括虚词、缩写形式、首字母缩写词、象声词、截短词、词缀、词形变化、人称标记、体标记、格标记、复数标记、时态标记、冠词、附着词、小品词、离合诗词等。这些单元对于通用参考词典都至关重要,在从语料库收集之前,需进行词汇和语法标注,否则会丢失词性和词义等重要信息。

从语料库中可收集单词的屈折和非屈折形式的多个实例。对于非屈折形式的实例,可直接处理以获取类型并标注其总出现次数;对于屈折形式,可进行词形还原,分离词缀和词形变化与词根和词干,并标注词元在语料库中的总出现次数。可使用规范形式作为词条,非规范形式作为子词条或连写词。例如,规范形式“din”(天)作为词条,“dink¯al”“dinr¯at”等形式可作为子词条。

2. 拼写变体问题

2.1 不同语言的拼写变体情况

在英语和德语等语言中,词条的拼写变体问题相对较小,大多数单词只有一种被认可的拼写方式,但也存在一些单词有两种或更多拼写,如“color”(英式)和“color”(美式)等。而在印度语言如孟加拉语、泰米尔语、泰卢固语、马拉雅拉姆语、桑塔利语等中,规范形式的拼写变体现象是词典编纂者面临的严重问题,许多词元有多种拼写,且大多在标准用法中被接受和使用。

2.2 孟加拉语拼写变体示例

拼写变体词汇
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值