- 博客(8)
- 收藏
- 关注
原创 不到百行代码,使用Whisper进行视频字幕生成。
试过了不同的模型,对于将视频类容转录成英文文本效果还是不错的,翻译成中文的效果还是差了点。而且小模型容易将音乐等背景识别成字幕,medium和large这种问题相对较少,但是识别的速度很慢。所有建议使用medium模型。如果没有翻译成除英语外的其他语言的需求,建议使用medium.en英语专用模型。模型识别的内容是准确的,但是会有其他多余背景的被识别成字幕,所有在添加到视频的时候,可以对照视频进行校对后再添加到视频中。对于翻译成中文不准确这个问题,可以使用腾讯云的机器翻译进行转译,下期出。
2024-03-01 14:09:44
1463
转载 AttributeError: ‘NoneType‘ object has no attribute ‘bytes‘
用于venv搭建环境时,使用pip报错。
2024-01-22 16:13:34
139
原创 用于扬声器测量的激励信号的python实现
该信号的特点是频率随时间连续变化, 并且符合对数增长规律。使用该测量信号作为激励信号, 不仅可以不遗漏地测试所有频率点, 还可以在总的测量时间中给每个倍频程的频段分配均匀的测量时间。主要用于扬声器扫频测试,作为激励信号。测量扬声器的频响,失真、信噪比。由于它不是从0开始的,所以还要在初始位置加一个0。而当频率时时间的函数时,在一个短暂的时间间隔。主要用于测量扬声器极性。表示激励信号的起始频率,表示激励信号的瞬时相位,表示激励信号的终止频率。表示激励信号的幅度,表示激励信号的时间。
2024-01-19 16:11:26
1598
1
原创 使用传声器计算SPL
如何将传声器测量的数值转换成与声压计相同的数值?首先传声器又俗称麦克风,功能是将声能转化成机械能,然后再将机械能转换成电能。然后声卡再将模拟信号装换成数值信号,balabala~~~无论他如何转换都是线性的,所以我们只需要使用校准音源校准我们的计算的数值,然后再做一个加权。怕有些童鞋不知道SPL计算公式,还是写一下公式吧。
2024-01-18 16:18:49
1698
1
原创 使用matplotlib显示频谱图
虽然librosa里的display也可绘制频谱图,但是在制作图片过程中,发现绘制的图片有很大差异,这样我在模型训练过程中怕出现问题,因此这里翻了一下display源码然后用matplotlib进行绘制。
2024-01-18 15:12:49
715
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人