语料库在词典编纂中的应用与价值
1. 词典收录单元类型
词典的收录单元可分为单字词、多字词和非字词单元。单字词和多字词以自由形式存在,包含复合词、重叠词、成语、短语、谚语、搭配、引文、固定表达等。非字词单元通常指那些不被视为常规单词,但被当作构词元素的词典词汇,以黏着形式存在,包括虚词、缩写形式、首字母缩写词、象声词、截短词、词缀、词形变化、人称标记、体标记、格标记、复数标记、时态标记、冠词、附着词、小品词、离合诗词等。这些单元对于通用参考词典都至关重要,在从语料库收集之前,需进行词汇和语法标注,否则会丢失词性和词义等重要信息。
从语料库中可收集单词的屈折和非屈折形式的多个实例。对于非屈折形式的实例,可直接处理以获取类型并标注其总出现次数;对于屈折形式,可进行词形还原,分离词缀和词形变化与词根和词干,并标注词元在语料库中的总出现次数。可使用规范形式作为词条,非规范形式作为子词条或连写词。例如,规范形式“din”(天)作为词条,“dink¯al”“dinr¯at”等形式可作为子词条。
2. 拼写变体问题
2.1 不同语言的拼写变体情况
在英语和德语等语言中,词条的拼写变体问题相对较小,大多数单词只有一种被认可的拼写方式,但也存在一些单词有两种或更多拼写,如“color”(英式)和“color”(美式)等。而在印度语言如孟加拉语、泰米尔语、泰卢固语、马拉雅拉姆语、桑塔利语等中,规范形式的拼写变体现象是词典编纂者面临的严重问题,许多词元有多种拼写,且大多在标准用法中被接受和使用。
2.2 孟加拉语拼写变体示例
| 拼写变体词汇 |
|---|
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



