语言数据管理:基础、生命周期与获取方法
1. 基础数据类型
语言语料库中存在两种基础数据类型,即词典和文本。
- 词典 :多数词汇资源可用记录结构表示,包含一个键和一个或多个字段。它可以是传统词典、比较词表、短语词典或词库等。例如,TIMIT语料库中的说话者表格就是一种词典。
- 文本 :从抽象层面看,文本是真实或虚构言语事件的表示,事件的时间进程会融入文本本身。文本可以是小单元,如单词或句子,也可以是完整的叙述或对话,还可能带有词性标注、形态分析、语篇结构等注释。
不同语料库的内容往往偏向这两种类型中的某一种。例如,Brown语料库包含500个文本文件,但使用表格将文件与15种不同体裁关联;WordNet包含117,659个同义词集记录,同时包含许多示例句子来阐释单词用法;TIMIT则处于两者之间,包含大量独立的文本和词典材料。
2. 语料库的生命周期
语料库的创建并非一蹴而就,而是需要长时间的精心准备和多人投入。以下是语料库生命周期的相关内容:
2.1 三种语料库创建场景
- 探索式创建 :在创作者的探索过程中逐步形成设计,这是传统“实地语言学”的典型模式。创作者在收集材料时进行分析,后续的收集工作常基于当前分析中出现的问题。计算机化对这类工作有很大帮助,如Shoebox(现重新发布为Toolbox)等软件工具常被用于数据获取。
- 实验研究式创建 :常用于实验研究,收集精心设计的材料,然后进行分析以评估假设或
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



