匈牙利黏着语大型自然语音数据库的开发
1. 引言
如今,基于语料库和统计方法在语音研究各领域的应用颇具挑战性。语言学分析愈发依赖数据,这使得对可靠且大型的口语数据库的需求日益增长。本文将介绍匈牙利的 BEA 数据库,它为跨语言的语音段级比较提供了有用的材料。
匈牙利语与英语和其他日耳曼语不同,它是一种黏着语,具有多样的词形变化特征和丰富的词法,且词序相对自由。目前针对高度黏着语的口语数据库较少,如土耳其语和芬兰语的相关数据库。黏着语的语言建模与英语等语言有所不同。
现存有各种规模、不同说话人数和不同转录水平的语料库。例如,TIMIT 声学 - 语音连续语音语料库用于训练独立于说话人的语音识别器,包含 630 位美国英语说话者的句子朗读,有时间对齐的正字法、语音和单词转录;Verbmobil 数据库(885 位说话者)于 90 年代开发,用于语音技术;英国国家语料库的口语部分(1 亿个单词)包含不同语境下的非正式对话;伦敦 - 隆德语料库包含 100 篇英式英语口语文本;Switchboard 语料库包括 543 位美国英语说话者的 2400 个电话对话,主要用于说话人识别和语音识别等应用。
过去几十年,除英语外,其他语言的新语料库也相继开发,如德语基尔语料库、丹麦口语语料库等。日本自发语料库(CSJ)是最大的数据库之一,包含 1395 位说话者的 661 小时语音,约 720 万个单词。EUROM1 和 BABEL 是多语言数据库,可用于比较不同语言的语音结构。
匈牙利语口语录音最早始于 20 世纪初,但材料已损毁。20 世纪 40 年代录制了各种方言语音材料,90 年代后期存档,可在匈牙利科学院语言研究所(RIL)研究。布达佩斯社会语言学
超级会员免费看
订阅专栏 解锁全文
6552

被折叠的 条评论
为什么被折叠?



