前面零零散散为大家介绍或者推荐了几种跟自动标注相关的内容,
第一篇为大家推荐了一种入门级别的“自动标注”,其实相当于协助大家把一些需要的信息增加进去。
第一,傻乎乎的自动标注,
第二,使用脚本的自动标注,
第三,使用诸如SPPAS的自动标注,
第四,较为专业的自动标注。
第二个,这其实是一个现成的小项目。
Praat脚本-026 | 谈谈自动标注这点儿事(2)
第三个,是为大家介绍了SPPAS的使用,
语音标注自动音段对齐工具SPPAS使用笔记
这里补充一下熊老师也有一个自己写的自动标注工具,叫做xSegmenter:音段自动切分与标注工具, http://paslab.phonetics.org.cn/index.php/others/ying_yong_cheng_xu_he_gong_ju/, 有兴趣的可至此网址下载并查看使用说明。
今天这一篇将自动标注小结一下,并且介绍一种比较专业的标注框架。
| Name | Algorithm | Supported Language(s) | Interface | Code Language(s) | Notes |
|---|---|---|---|---|---|
| aeneas | DTW | 30+ | CLI, LIB, Web | Python, C | Not based on ASR |
| CMU Sphinx | HMM (own), RNN | 11 | CLI, LIB | C, Java, Python | |
| DARLA | HMM (HTK) | English | Web | ? | Based on Prosodylab-Aligner or YouTube ASR |
| FAVE-align | HMM (HTK) | English | CLI, (Web) | Python | acustic models from P2FA; GitHub code updated more frequently than Web |
| Gentle | HMM (Kaldi) | English | CLI, Web | Python | Based on Kaldi |
| Julius | HMM (own) | English, Japanese | CLI, LIB | C | |
| Kaldi | HMM (own), DNN, RNN | English | CLI, LIB | C++ | CUDA support |
| kaldi-dnn-ali-gop | HMM(Kaldi), DNN(Kaldi nnet3) | English | CLI, LIB | Shell Script, C++, Python | Work with other languages given kaldi acoustic models |
| LaBB-CAT | HMM (HTK) | English | Web | Java | |
| MAUS | HMM (HTK) | 21 | CLI, Web | C | |
| Montreal Forced Aligner | HMM (Kaldi) | English | CLI | Python | Can train other languages |
| Penn Forced Aligner (P2FA) | HMM (HTK) | English | CLI, Web | Python | |
| Prosodylab-Aligner | HMM (HTK) | English | CLI | Python | Can train other languages |
| SailAlign | HMM (HTK) | English, Greek, Spanish | CLI | Perl | |
| SPPAS | HMM (Julius) | 12+ | CLI, GUI | Python | Can train other language, several plugins |
AGPL: GNU Affero General Public License
Apache: Apache License
CLI: command line interface
DNN: Deep Neural Network
DTW: Dynamic Time Warping
GPL: GNU General Public License
GUI: graphical interface
HMM: Hidden Markov Model
LIB: library callable by third party software
MFCC: Mel-frequency Cepstral Coefficients
MIT: MIT License
RNN: Recurrent Neural Network
Web: Web-based graphical interface, local and/or remote
以上节选自,https://github.com/pettarin/forced-alignment-tools,有兴趣的可至这个项目页面查看详细信息,包括每个工具的链接。
以上基本上是业界一段时间内,以及当前比较流行的一些自动标注的工具或者框架,另外一种叫法也叫音素强制对齐,目的是为了让语音的音素与音频对应起来。可见大部分的仍然是基于HMM算法的,包括刚才补充的熊老师的工具也是基于HMM算法。
推荐有自动标注强需求的同学重点关注,Montreal Forced Aligner,该框架目前使用比较广泛,而且效果也比较好,虽然很多大厂已经在使用深度学习网络的算法,但是作为普通用户,小而精悍的HMM算法仍然是首选。 montreal框架有专门的官网网站,也可以在网上搜索相关的安装配置方法。
如果数据不多,又需要自动标注的,可在公众号后台发送“自动标注”咨询。
关注
关于对本站脚本的使用咨询,以及功能修改,增加等,都可以扫QQ咨询群,私信群主。

版权说明
1、版权归本公众号“极地语音工作室”,原名“语音处理小站”所有;
2、未经本站或者作者允许, 不得任意转载本文内容,否则将视为侵权;
3、转载或者引用本文内容请注明来源及原作者;
4、对于不遵守此声明或者其他违法使用本站内容者,本人依法保留追究权等。
本文总结了多种自动语音标注工具,包括基于HMM的Praat脚本、SPPAS、MontrealForcedAligner等。MontrealForcedAligner是广泛应用且效果良好的选择,适用于需要音素强制对齐的场景。此外,还列举了各种自动标注工具的特性、支持的语言和接口类型。
3573

被折叠的 条评论
为什么被折叠?



