FishSpeech：中日英文生语音，自然流畅

原创于 2025-03-26 15:35:51 发布 · 861 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能

AI应用攻略专栏收录该内容

36 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

不少AI语音合成软件的生成作品都缺乏“人味”，而流畅自然的语音交互体验却逐渐被更多AI应用场景所需要。今天要介绍的就是Fish Audio出品的一款文本转语音（TTS）解决方案——FishSpeech，其在中文语音生成场景下的出色表现如同一骑绝尘，几乎能够达到接近人类自然语音的效果。

下面就让我们一起来看看吧~

FishSpeech的优势在哪？

高保真音质：能够生成接近真人的语音，提供自然流畅的听觉体验。
智能调整：能够智能分析输入文本的情感色彩和语境，自动调整语调和节奏，使输出语音更加贴合原文意图。
简洁友好：用户界面非常简单，操作简便，生成速度也很快。
三语切换：中、日、英三种语言全面支持，能听出异域风情。

FishSpeech适合哪些场景？

教育培训：用最小的人力和成本投入，实现大量教育素材的输出，并可用于教学视频、PPT演示文稿和有声书的配音。
媒体娱乐：为播客、动画、游戏等角色提供配音服务，增强沉浸感和表现力，丰富节目内容。
智能客服：提供语音交互功能，提升用户体验；发送语音通知和提醒，如订单确认、快递到达等。

在哪里玩FishSpeech？

FishSpeech现已上线东方超算AI应用商店（访问网址appmall.ai），您可以查看《手把手教你玩转AppMall》，全流程了解如何安装开启站内应用。

FishSpeech怎么用？

界面非常简单，只需要输入文本原文，按Generate键进行生成即可。在实测中，差不多长度的中文文本的生成速度最快>英文文本>日文文本。

但是从语音文件本身来说，有起承转合，准确率也接近100%，而且语速和语调都比较自然，高度还原native speaker。

大部分情况下，直接使用默认参数，即可短平快完成一次文本-语音生成，如果需要高级参数调试，那么就需要注意下面这些参数了：

Iterative Prompt Length：迭代提示长度，指在生成语音时，模型会考虑前文内容的长度，数值为 0 表示关闭此功能。比如设置为 200，模型就会参考前面 200 个相关单位（如字符、词等）的内容来生成当前语音，合适的设置能让语音更连贯、符合语境。
Maximum tokens per batch：批次最大标记数，用于限定每个批次中模型可以生成的最大标记（token）数量，0 表示没有限制。token 是模型处理文本时的基本单位，限制这个数量可以控制每批处理量，避免内存等资源过度占用。
Top-P：核采样，是一种文本生成策略。模型在生成每一个新词时，只考虑累积概率大于 P 的最小集合的词。比如设置为 0.7，就是从累积概率达到 0.7 的最小词集合中选择下一个词，该参数能控制生成内容的随机性和多样性。
Repetition Penalty：重复惩罚，用于减少生成语音文本中的重复内容。比如设置为 1.2 ，模型在生成过程中遇到重复内容时，会给予一定惩罚，降低重复出现的概率，让生成的语音更自然。
Temperature：温度，用于控制生成语音文本的随机性。数值越低，生成结果越确定、保守；数值越高，随机性越强，结果可能更加多样但也可能更偏离预期。比如设置为 0.7 ，处于适中水平，能平衡多样性和稳定性。
Seed：随机种子，当设置为 0 时表示随机推理，每次运行结果可能不同；设置为非 0 数值时，推理过程是确定性的，即使用相同的随机种子和输入，每次得到的结果相同，方便复现特定的语音生成效果。

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型，用户只需输入视频和文字，就能为视频匹配电影级音效