42、普通话语音转文字转录的最新进展

最新推荐文章于 2025-12-15 22:18:31 发布

nft7creator

最新推荐文章于 2025-12-15 22:18:31 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理与机器翻译文章标签：普通话语音转文字 STT系统系统组合

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/155011297

自然语言处理与机器翻译专栏收录该内容

79 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

普通话语音转文字转录的最新进展

1. 系统组合与ROSETTA系统

在语音转文字（STT）系统中，由于STT引擎数量众多，评估所有可能的n - 路组合计算成本高昂。因此采用了迭代选择方法：
1. 首先评估所有两两系统组合，选择字符错误率（CER）最小的组合作为初始组合集（此时n = 2）。
2. 接着将剩余系统与当前最佳的n - 路组合进行组合，选择CER最小的n + 1组合。
3. 重复此过程，直到添加更多系统不再提升性能。

在选择过程中，在调整集（dev08）上优化系统权重，并选择在未见数据（eval07和retest07）上表现最佳的组合。以下是ROSETTA阶段3系统及其格组合的结果：
| System combinations | Tuning (dev - 08) | unseen test (eval - 07) | unseen test (retest - 07) |
| — | — | — | — |
| 1 | 6.7 (59.9) | 8.1 (57.6) | 6.5 (51.5) |
| 2 | 6.9 (60.3) | 8.4 (59.0) | 6.6 (52.3) |
| 3 | 6.9 (59.8) | 8.4 (59.0) | 6.6 (52.3) |
| 4 | 7.0 (59.9) | 8.4 (59.4) | 6.7 (54.1) |
| 2 4 | 6.5 (59.4) | 8.1 (56.3) | 6.3 (52.6) |
| 2 4 1 | 6.5 (59.9) | 8.0 (57.1) | 6.4 (51.6) |
| 2 4 1 3