自然语言处理:从基础到前沿探索
1. 语言资源标识符与数据获取
在语言资源管理中,标识符具有特定的格式: oai:archive:local_id 。其中, oai 是 URI 方案的名称, archive 是存档标识符,例如 www.ldc.upenn.edu ,而 local_id 是存档分配的资源标识符,如 LDC97L18 。
当我们拥有一个 OLAC 资源的 OAI 标识符时,可以使用以下形式的 URL 来检索该资源的完整 XML 记录: http://www.language-archives.org/static-records/oai:archive:local_id 。
2. 语料库相关基础
2.1 基本数据类型
大多数语料库中存在的基本数据类型是带注释的文本和词典。文本具有时间结构,而词典具有记录结构。
2.2 语料库生命周期
语料库的生命周期包括数据收集、注释、质量控制和发布。在发布之后,随着研究的进行,语料库会被修改和丰富,生命周期仍在继续。
2.3 语料库开发的平衡
语料库开发需要在捕捉具有代表性的语言使用样本和从任何一个来源或体裁中获取足够有用的材料之间取得平衡。由于资源限制,通常无法将所有变化维度都考虑进去。
2.4 数据格式
- XML
超级会员免费看
订阅专栏 解锁全文
2154

被折叠的 条评论
为什么被折叠?



