43、语言数据管理:基础、生命周期与获取

语言数据管理:基础、生命周期与获取

1. 基础数据类型

尽管语言语料库情况复杂,但像TIMIT语料库仅包含两种基本数据类型:词库(lexicons)和文本(texts)。

词库方面,多数词汇资源可用记录结构来表示,即一个键加上一个或多个字段。词库形式多样,它可以是传统字典、比较词表,也可以是短语词库(键字段为短语而非单个单词),还可以是同义词词典。此外,TIMIT的说话者表格也是一种词库。以下为词库的不同形式示例:
| 词库类型 | 示例说明 |
| ---- | ---- |
| 传统字典 | 包含单词及其释义、发音等信息 |
| 比较词表 | 对比不同语言或方言中的对应词汇 |
| 短语词库 | 以短语为键,存储相关信息 |
| 同义词词典 | 通过与主题对应的非键字段查找词条 |
| 说话者表格 | 记录说话者相关信息 |

文本从抽象层面看,是对真实或虚构言语事件的一种呈现,事件的时间进程会融入文本本身。文本可以是单词、句子等小单元,也可以是完整的叙述或对话,还可能带有词性标注、形态分析、语篇结构等注释。

不同语料库在内容上会偏向这两种数据类型中的某一种。例如,布朗语料库(Brown Corpus)包含500个文本文件,同时用表格将这些文件与15种不同体裁关联起来;WordNet包含117,659个同义词集记录,还包含许多示例句子来阐释单词用法;TIMIT语料库则处于两者之间,包含大量独立的文本和词库材料。

2. 语料库的生命周期

语料库并非一蹴而就,需要长时间精心准备,涉及众多人员的投入。其生命周期包含以下几个阶段:
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值