口语语料库设计:从实验方法到说话人特征
在口语语料库设计领域,我们不仅要考虑实验方法的选择,还要关注说话人的数量、类型以及他们的各种特征。这些因素相互交织,共同影响着语料库的质量和适用性。
口语语料库实验方法
在口语语料库相关实验中,有一种类型是在大量不同语境中研究一个或多个特定因素的行为。与试图通过保持伴随因素恒定来消除其影响的方法不同,这种实验尝试对多种不同语境进行采样。例如,在研究音素时,不局限于选择某个特定的伴随因素水平(如研究音素时选择清塞音作为其右邻音),而是广泛采样不同语境。
当然,为了使这类研究可行,需要假设受试者效应和语境效应可以以相同方式处理,因为让受试者长时间参与实验极为困难。
在设计基于语料库的实验时,必须注意口语中许多频率分布的极端偏斜现象。以音素频率为例,在所有有相关数据的语言中,系统内某些音素的出现频率远高于其他音素。随机采样很可能会遗漏低频音素和可能的语境,除非语料库规模极大。
贪心算法可用于找到涵盖最多现象的最少语言材料,但即便使用该算法,也不能保证涵盖所有可能相关的条件,未作为搜索目标的条件可能只是偶然出现。由于无法实现完全覆盖,语料库研究必须以某种方式处理缺失数据。可以尝试使用基于知识的算术模型处理缺失数据,包含所有相关参数;也可以使用像CART(分类与回归树)这样的“盲”统计建模技术。除非能保证缺失数据不集中在少数子空间,否则算术模型似乎更受青睐。
说话人的数量和类型
除了语料库的语言内容,说话人的数量和类型是指定和分类语料库的第二个主要因素。说话人的独特特征会显著增加语料库中的变异量。
超级会员免费看
订阅专栏 解锁全文
2363

被折叠的 条评论
为什么被折叠?



