
AI基础知识
文章平均质量分 93
AI_Gump
这个作者很懒,什么都没留下…
展开
-
【AI语音基础】VAD/说话人识别/声纹
本文的参考文献共有311篇,从1964年到2020年的说话人识别论文都有涉及,系统的读参考文献也是了解入门的好方法,能清晰的看到几十年来人们一直在关注什么问题,用什么方法去尝试解决,又在哪些地方有突破性的进展。正确率(Accurancy, 预测值将输入标签识别正确的比例),召回率(Recall,预测值中的语音片段占整体语音片段的比例)和准确率(Precision, 检测出来的语音标签中真正的语音标签的比例)。语音会被划分为说话人组,语音非语音的片段或说话人转变等事件会被检测出来。话者分离常用的指标是。原创 2024-04-28 19:29:17 · 3104 阅读 · 0 评论 -
【AI语音基础】ASR基本知识
带入上面公式,S表示将Hyp转化为Ref时发生的替换数量,D表示将Hyp转化为Ref时发生的替换数量,I代表将Hypo转化为Ref时发生的插入数量,N代表Ref句子中总的字数或者英文单词数。定义:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。因为英文语句中句子的最小单位是单词,而中文语句中的最小单位是汉字,因此在中文语音转文本任务或中文语音识别任务中使用。原创 2024-04-28 19:30:27 · 7877 阅读 · 0 评论