词典学:从传统到未来的变革
1. 词典学的定义与变革
词典学传统上被定义为编纂词典的艺术或技艺。而“计算词典学”有两层含义:一是利用传统出版的词典进行计算目的的应用;二是运用计算技术编纂新的词典。本文聚焦于英语计算词典学。
21世纪的前二十年,词典出版的商业模式发生了转变。从1530年到2000年,词典编纂主要是为了印刷成装订书籍出售。但到2010年,纸质词典销量急剧下降,而所有知名词典(以及一些不太知名的词典)都可通过互联网获取和搜索。此外,还有各种手持设备包含基本的词典信息。不过,目前机械技术的发展超过了内容的更新,这些内容通常只是对传统词典文本的轻微改编。
虽然像亚马逊Kindle这样的电子书阅读设备理论上可以使词典与用户正在阅读的任何文本进行交互,但要实现有效的应用,软件不仅要选择词典中的相关单词,还要选择该单词最相关的词义或用法模式,这是一项极具挑战的任务。研究文本中的短语模式是实现这一应用的基础,但目前这方面的研究还处于起步阶段。
计算机技术,尤其是语料库证据的引入,彻底改变了词典学。然而,资源的变革虽然具有巨大的未来创新潜力,但却与词典学传统依赖的商业模式(印刷书籍销售预测)的崩溃同时发生,这是十分不幸的。
2. 词典的定义与特点
传统意义上,词典是一种语言中单词的清单,包含每个单词的词义、词性、词源(大型词典中)等信息,有时还包括标准发音等。这种清单是自然语言处理应用的重要资源,如机器翻译、信息检索、语音识别等。
不同词典具有不同的特点。有些词典包含与单个词汇项相关的句法模式信息;有些将词形变化形式索引到基本形式;有些给出词义定义;有些包含翻译;有些提供词汇项之间的语义链接和层次结
超级会员免费看
订阅专栏 解锁全文
20

被折叠的 条评论
为什么被折叠?



