Praat脚本-030 | 谈谈自动标注这点儿事（4）

原创已于 2022-03-14 19:22:53 修改 · 2.8k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#批量合并TextGrid #Praat脚本 #自动标注

于 2021-11-27 22:30:40 首次发布

Praat 专栏收录该内容

55 篇文章

订阅专栏

本文总结了多种自动语音标注工具，包括基于HMM的Praat脚本、SPPAS、MontrealForcedAligner等。MontrealForcedAligner是广泛应用且效果良好的选择，适用于需要音素强制对齐的场景。此外，还列举了各种自动标注工具的特性、支持的语言和接口类型。

前面零零散散为大家介绍或者推荐了几种跟自动标注相关的内容，

第一篇为大家推荐了一种入门级别的“自动标注”，其实相当于协助大家把一些需要的信息增加进去。

Praat脚本-023 | 谈谈自动标注这点儿事（1）

第一，傻乎乎的自动标注，
第二，使用脚本的自动标注，
第三，使用诸如SPPAS的自动标注，
第四，较为专业的自动标注。

第二个，这其实是一个现成的小项目。
Praat脚本-026 | 谈谈自动标注这点儿事（2）

第三个，是为大家介绍了SPPAS的使用，
语音标注自动音段对齐工具SPPAS使用笔记

这里补充一下熊老师也有一个自己写的自动标注工具，叫做xSegmenter：音段自动切分与标注工具， http://paslab.phonetics.org.cn/index.php/others/ying_yong_cheng_xu_he_gong_ju/，有兴趣的可至此网址下载并查看使用说明。

今天这一篇将自动标注小结一下，并且介绍一种比较专业的标注框架。

Name	Algorithm	Supported Language(s)	Interface	Code Language(s)	Notes
aeneas	DTW	30+	CLI, LIB, Web	Python, C	Not based on ASR
CMU Sphinx	HMM (own), RNN	11	CLI, LIB	C, Java, Python
DARLA	HMM (HTK)	English	Web	?	Based on Prosodylab-Aligner or YouTube ASR
FAVE-align	HMM (HTK)	English	CLI, (Web)	Python	acustic models from P2FA; GitHub code updated more frequently than Web
Gentle	HMM (Kaldi)	English	CLI, Web	Python	Based on Kaldi
Julius	HMM (own)	English, Japanese	CLI, LIB	C
Kaldi	HMM (own), DNN, RNN	English	CLI, LIB	C++	CUDA support
kaldi-dnn-ali-gop	HMM(Kaldi), DNN(Kaldi nnet3)	English	CLI, LIB	Shell Script, C++, Python	Work with other languages given kaldi acoustic models
LaBB-CAT	HMM (HTK)	English	Web	Java
MAUS	HMM (HTK)	21	CLI, Web	C
Montreal Forced Aligner	HMM (Kaldi)	English	CLI	Python	Can train other languages
Penn Forced Aligner (P2FA)	HMM (HTK)	English	CLI, Web	Python
Prosodylab-Aligner	HMM (HTK)	English	CLI	Python	Can train other languages
SailAlign	HMM (HTK)	English, Greek, Spanish	CLI	Perl
SPPAS	HMM (Julius)	12+	CLI, GUI	Python	Can train other language, several plugins

AGPL: GNU Affero General Public License
Apache: Apache License
CLI: command line interface
DNN: Deep Neural Network
DTW: Dynamic Time Warping
GPL: GNU General Public License
GUI: graphical interface
HMM: Hidden Markov Model
LIB: library callable by third party software
MFCC: Mel-frequency Cepstral Coefficients
MIT: MIT License
RNN: Recurrent Neural Network
Web: Web-based graphical interface, local and/or remote

以上节选自，https://github.com/pettarin/forced-alignment-tools，有兴趣的可至这个项目页面查看详细信息，包括每个工具的链接。

以上基本上是业界一段时间内，以及当前比较流行的一些自动标注的工具或者框架，另外一种叫法也叫音素强制对齐，目的是为了让语音的音素与音频对应起来。可见大部分的仍然是基于HMM算法的，包括刚才补充的熊老师的工具也是基于HMM算法。

推荐有自动标注强需求的同学重点关注，Montreal Forced Aligner，该框架目前使用比较广泛，而且效果也比较好，虽然很多大厂已经在使用深度学习网络的算法，但是作为普通用户，小而精悍的HMM算法仍然是首选。 montreal框架有专门的官网网站，也可以在网上搜索相关的安装配置方法。

如果数据不多，又需要自动标注的，可在公众号后台发送“自动标注”咨询。