
语音识别
文章平均质量分 60
咆哮的大叔
给儿子树立一个爱写博客的好榜样。
展开
-
字幕切分视频
开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。原创 2023-07-18 16:53:20 · 2108 阅读 · 0 评论 -
wav2vec 2.0:一种自监督的语音识别方法
wav2vec 2.0算法梳理原创 2023-02-20 17:40:31 · 2338 阅读 · 0 评论