语音语料库的符号表示层次与类型解析
在语音研究领域,对语音语料库进行准确的符号表示至关重要,它有助于深入分析语音的各个层面,从基本的文字形式到复杂的韵律特征。以下将详细介绍语音语料库的多种符号表示层次和类型。
1. 记录脚本与正字法转录
- 记录脚本 :对于从脚本朗读的语音,最简单快捷的标注层次是记录脚本中单词的正字法形式,因为这些信息易于获取。但多数研究者需要更详细的内容,所以还需考虑其他层次。
- 正字法转录 :指使用语言的标准拼写惯例。它常用于大规模语音语料库以及对单词发音细节要求不高的研究语料库。不过,标准拼写在实际应用中存在一定局限性,尤其是在处理自发语音时,听到的声音与书面表示之间可能存在显著差异。
- 简化词形式 :由于听到的声音与书面形式的差异,许多自发语音语料库开发者会标注简化词形式。他们通常参考标准词典中的简化形式,但为保证一致性,有时也会使用词典中未有的形式。例如,德语中“zu der”常缩写为“zur”,而在VERBMOBIL语料库中,“für den”可写成“fiirn”。标注简化词形式的标准可能包括其出现频率和音节数量的减少。
- 方言形式 :即使在涵盖标准语言变体的语料库中,说话者也可能使用带有方言基础的词汇,这些词汇需要在转录中标记。例如,VERBMOBIL语料库采用正字法来标记不在杜登词典中的方言词汇,并可提供这些词汇含义的相关信息。
- 数字 :正字法转录中,数字通常完整拼
超级会员免费看
订阅专栏 解锁全文
2370

被折叠的 条评论
为什么被折叠?



