自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

RookieFCB的专栏

心之所动，随风而去。

RookieFCB 优快云认证博客专家优快云认证企业博客

码龄11年

131: 原创

10万+: 周排名

194万+: 总排名

15万+: 访问

: 等级

2259: 积分

82: 粉丝

34: 获赞

56: 评论

267: 收藏

私信

关注

热门文章

分类专栏

最新评论

用CNN识别CT图像检测肺癌
song_li_huan: 大神你好，可以提供预测代码吗？我只要已训练好的模型，和测试图片，预测代码。我的邮箱181454035@qq.com，感谢
Python 立体声音频生成
RookieFCB: 那你可以在调达摩院api前对音频进行预处理以解决这个格式一致问题
Python 立体声音频生成
lmw0320: 我查过了，都是float64的格式。我后面试了下，貌似要把语音的采样率，通道数，量化位数三者，都与测试的语音文件一致，才能正确识别出语音。以前没搞过语音识别。感觉如果对语音文件的要求这么高，有点不合常理啊。。不应该是常规的语音都要能正常识别么？难道每次输入的语音文件都事先转换下，才能用？？
Python 立体声音频生成
RookieFCB: 你可以检查一下新生成的单通道音频的数据类型
Python 立体声音频生成
lmw0320: 请教下，我测试了个达摩院提供的语音识别模型，用官方的wav文件可以正常识别。但是换成自己的wav文件却一直识别不到。。查看了下，发现代码用的soundfile来读取文件，官方的wav文件读出来的形状是（x, )，我的文件读取出来是（x,2).--然后我用scipy中wavefile提取了单通道的语音，并另存成文件（试了下可以正常播放），再去测试，发现无法识别到声音，结果都是什么sil。。。不知道这种语音文件要注意什么方面的东西么？

最新文章

Andrew NG机器学习笔记

关注

文章平均质量分 68

关注数：文章数：56 文章阅读量：33246 文章收藏量：30

作者: RookieFCB

这个作者很懒，什么都没留下…

展开