语言数据管理:从基础类型到数据获取
1. 基础数据类型
尽管TIMIT语料库结构复杂,但它仅包含两种基本数据类型:词典和文本。
1.1 词典
词典资源通常可以用记录结构来表示,即一个键加上一个或多个字段。以下是一些不同类型的词典示例:
- 常规词典或比较词表 :以键值对形式存储单词及其相关信息。
- 短语词典 :键字段为短语而非单个单词。
- 词库 :通过与主题对应的非键字段来查找词条。
- 范式 :用于展示对比和系统变化,例如三个动词的范式表格(此处虽未给出具体表格,但可想象为一个包含动词不同形式对比的表格)。
- TIMIT的说话者表格 :也是一种词典。
1.2 文本
从抽象层面看,文本是对真实或虚构言语事件的表示,事件的时间进程会体现在文本本身。文本可以是小单元,如单词或句子,也可以是完整的叙述或对话,并且可能带有词性标注、形态分析、语篇结构等注释。
1.3 语料库结构
尽管各个语料库存在复杂性和特性,但本质上它们是文本和记录结构数据的集合。不同语料库在内容上可能更偏向其中一种类型:
| 语料库名称 | 文本文件数量 | 记录结构数据情况 |
| ---- | ---- | ---- |
| 布朗语料库 | 500个文本文件 | 用表格将文件与15种不同体裁关联 |
| WordNet | 包含许多示例句子(
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



