普通话语音转文字转录的最新进展
1. 系统组合与ROSETTA系统
在语音转文字(STT)系统中,由于STT引擎数量众多,评估所有可能的n - 路组合计算成本高昂。因此采用了迭代选择方法:
1. 首先评估所有两两系统组合,选择字符错误率(CER)最小的组合作为初始组合集(此时n = 2)。
2. 接着将剩余系统与当前最佳的n - 路组合进行组合,选择CER最小的n + 1组合。
3. 重复此过程,直到添加更多系统不再提升性能。
在选择过程中,在调整集(dev08)上优化系统权重,并选择在未见数据(eval07和retest07)上表现最佳的组合。以下是ROSETTA阶段3系统及其格组合的结果:
| System combinations | Tuning (dev - 08) | unseen test (eval - 07) | unseen test (retest - 07) |
| — | — | — | — |
| 1 | 6.7 (59.9) | 8.1 (57.6) | 6.5 (51.5) |
| 2 | 6.9 (60.3) | 8.4 (59.0) | 6.6 (52.3) |
| 3 | 6.9 (59.8) | 8.4 (59.0) | 6.6 (52.3) |
| 4 | 7.0 (59.9) | 8.4 (59.4) | 6.7 (54.1) |
| 2 4 | 6.5 (59.4) | 8.1 (56.3) | 6.3 (52.6) |
| 2 4 1 | 6.5 (59.9) | 8.0 (57.1) | 6.4 (51.6) |
| 2 4 1 3
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



