读书笔记
文章平均质量分 93
主要关注语音类AI模型(如TTS,ASR和SE)的英文论文翻译+解读
IT老兵2025
25载IT老兵,早年曾任职华为,UT斯达康等通信大厂,20年+的大型电信软硬件系统研发与项目管理实践;近5年的技术研究重点在高并发通信系统,网络安全与高效密码系统,嵌入式通信与CPU+GPU/NPU异构系统,linux内核与高性能驱动研发;近期兴趣重点在嵌入式AI语音,特别AI智能语音的应用落地。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文笔记之F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speechwith Flow Matching
本文为F5-TTS论文的中文阅读摘录和注解笔记。F5-TTS是一种基于扩散变换器(DiT)和流匹配技术的非回归零样本语音合成模型。其核心创新包括:1)采用DiT与ConvNeXt组合架构,优化文本-语音对齐;2)引入推理时间采样策略提升生成质量;3)实现0.15实时推理分数(RTF),显著快于现有扩散模型。该模型在多语言数据集上训练后展现出优异的零样本生成能力、代码转换和语速控制功能。原创 2025-09-07 17:55:36 · 875 阅读 · 0 评论 -
论文笔记之ZipVoice: Fast and High-Quality Zero-Shot Text-to-Speech with Flow Matching
本文为ZipVoice最新论文《ZipVoice: Fast and High-Quality Zero-Shot Text-to-Speech with Flow Matching》的中文翻译摘录和注解笔记。ZipVoice,一款基于流匹配框架的高效零样本TTS系统。原创 2025-09-01 18:38:15 · 1187 阅读 · 0 评论
分享