
人工智能
文章平均质量分 74
人工智能技术相关
岁月的眸
认定学习目标,不断提升自我!
展开
-
长文本切割实现流式调用文本合成语音
【代码】长文本切割实现流式调用文本合成语音。原创 2025-02-26 20:29:58 · 440 阅读 · 0 评论 -
字节火山引擎-大模型声音复刻,流式语音合成接口
字节火山引擎-大模型声音复刻,流式语音合成接口原创 2025-02-26 20:09:48 · 810 阅读 · 0 评论 -
F5-TTS文本语音合成模型的使用和接口封装,tts合成音频,http流式输出,音频采样率转换
2024年10月8日,上海交通大学团队发布,F5-TTS (A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching) 是一款基于扩散Transformer和ConvNeXt V2的文本转语音 (TTS) 模型。F5-TTS旨在生成流畅且忠实的语音,其训练速度和推理速度都得到了提升。项目还提供了一个名为E2 TTS的模型,它是论文中模型的更接近的复现版本,基于Flat-UNet Transformer。原创 2024-12-11 18:22:45 · 6950 阅读 · 3 评论 -
大模型技术栈-实战与应用【笔记】
大模型技术栈-实战与应用思维导图,笔记原创 2024-08-13 16:25:59 · 509 阅读 · 0 评论 -
如何使用huggingface镜像站
为保障账号安全,本站不支持登录,需先前往 Hugging Face 官网登录、申请许可,在。参数禁用文件软链接,这样下载路径下所见即所得,详细解释请见上面提到的教程。作为一个公益项目,致力于帮助国内AI开发者快速、稳定的下载模型、数据集。是 Hugging Face 官方提供的命令行工具,自带完善的下载功能。不过有些数据集有内置的下载脚本,那就需要手动改一下脚本内的地址来实现了。环境变量来确定下载文件所用的网址,所以可以使用通过设置变量来解决。如何设置认证 token,详见上面第一段提到的教程。原创 2024-05-21 15:11:07 · 2505 阅读 · 0 评论 -
GPT-SoVITS音色克隆-模型训练步骤
处理完的音频(vocal)的是人声,(instrument)是伴奏,(No Reverb)的没混响的,(Reverb)的是混响。这步很简单只要把刚才的切分文件夹输入,如果你音频降噪过,那么默认是output/slicer_opt文件夹,如果你切分了没有降噪,那么默认是output/slicer_opt文件夹。就好了,默认输出是output/asr_opt这个路径,建议不要改输出路径,到时候找不到文件谁也帮不了你。3)第三步将上一步的人声作为输入,去混响,使用DeEcho-Aggressive(去混响)原创 2024-02-29 22:28:54 · 3700 阅读 · 0 评论