51、匈牙利黏着语大型自然语音数据库的开发

sprite

于 2025-08-09 16:36:42 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：匈牙利语黏着语 BEA数据库

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005220

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

匈牙利黏着语大型自然语音数据库的开发

1. 引言

如今，基于语料库和统计方法在语音研究各领域的应用颇具挑战性。语言学分析愈发依赖数据，这使得对可靠且大型的口语数据库的需求日益增长。本文将介绍匈牙利的 BEA 数据库，它为跨语言的语音段级比较提供了有用的材料。

匈牙利语与英语和其他日耳曼语不同，它是一种黏着语，具有多样的词形变化特征和丰富的词法，且词序相对自由。目前针对高度黏着语的口语数据库较少，如土耳其语和芬兰语的相关数据库。黏着语的语言建模与英语等语言有所不同。

现存有各种规模、不同说话人数和不同转录水平的语料库。例如，TIMIT 声学 - 语音连续语音语料库用于训练独立于说话人的语音识别器，包含 630 位美国英语说话者的句子朗读，有时间对齐的正字法、语音和单词转录；Verbmobil 数据库（885 位说话者）于 90 年代开发，用于语音技术；英国国家语料库的口语部分（1 亿个单词）包含不同语境下的非正式对话；伦敦 - 隆德语料库包含 100 篇英式英语口语文本；Switchboard 语料库包括 543 位美国英语说话者的 2400 个电话对话，主要用于说话人识别和语音识别等应用。

过去几十年，除英语外，其他语言的新语料库也相继开发，如德语基尔语料库、丹麦口语语料库等。日本自发语料库（CSJ）是最大的数据库之一，包含 1395 位说话者的 661 小时语音，约 720 万个单词。EUROM1 和 BABEL 是多语言数据库，可用于比较不同语言的语音结构。

匈牙利语口语录音最早始于 20 世纪初，但材料已损毁。20 世纪 40 年代录制了各种方言语音材料，90 年代后期存档，可在匈牙利科学院语言研究所（RIL）研究。布达佩斯社会语言学