GA 优化 HMM 用于自动语音识别及多口音语音统一系统
1 GA 优化 HMM 用于自动语音识别
1.1 GA 方法流程
在该自动语音识别优化方案中,采用了两种遗传算法(GA)方法来优化隐马尔可夫模型(HMM)的转移概率和结构。
方法二:轮盘赌选择
首先是方法二,对归一化初始种群进行轮盘赌选择。选择双亲对后,进行交叉和变异操作以产生后代。
- 交叉操作 :采用单点交叉,交叉点随机选择,可设置在染色体的 207 个二进制位中的任意位置。
- 变异操作 :交叉后进行变异,即随机改变一个二进制位。若后代不满足任何限制条件,则再次进行变异以产生有效的后代。
- 解码与归一化 :最后,将后代解码为原始整数值,再除以 1000000000 得到表现型。将这些值归一化,形成与相关音素对应的有效转移概率(即有效转移矩阵)。
在这种方法中,每次测试一个后代,以衡量训练语音数据上的单词识别准确率的提高情况。若有提高,则测试下一个后代;否则,再次进行轮盘赌选择。保留能提高 HMM 性能的后代,其单词识别准确率成为该个体的适应度值。测试完所有 44 个后代后,将该种群作为初始种群再次执行 GA(最多执行 5 次)。其收敛图如图 5 所示。
1.2 语音数据与基线识别器
使用 HTK 工具包构建了一个与说话人无关(SI)的基线语音识别器。采用英国英语《华尔街日报》(WSJ)数据库,识别器的训练集包含来自 92 位说话人的 WSJ 数据,用于构建 45 个单音素声学模型。这