黄仁勋投了家复刻马斯克声音的AI公司

转载于 2025-11-03 11:09:43 发布 · 49 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247839102&idx=2&sn=1b733fcecb20148457a60d17879bda76&chksm=e98bf71c1c862aae19f92c5303b913da8a778af30515388f869426a97e03a9cda6c266b1ef58&scene=126&sessionid=0

文章标签：

部署运行你感兴趣的模型镜像

梦瑶发自凹非寺
量子位 | 公众号 QbitAI

如果我不说，你能分清哪个是马斯克本人的声音吗？

大NO特NO！！！其实这俩都不是。。。

这段堪比“本尊”的语音，就出自语音AI公司Cartesia刚刚发布的语音模型Sonic-3。

伴随新模型对外公布的还有新融资：

Cartesia披露完成1亿美元的B轮融资，投资方里英伟达赫然在列。

此外，这家公司之所以如此受关注，还跟其创始人密切相关。

其创始人、CEO是来自斯坦福AI Lab的印度天才少年Karan Goel ，之前就在状态空间模型（SSM）领域锋芒毕露了。

是时候认识认识Cartesia了～

融资+上新，两件大事一块来

Cartesia这家公司，开局就是典型硅谷精英剧本。

Cartesia的初始核心成员，清一色来自斯坦福AI实验室，妥妥的学术派大拿班底。

其中，Cartesia首席科学家和联合创始人Albert Gu还是一名华裔，也是是Mamba架构的共同发明人之一。

△从左往右第三位为Albert Gu

其实，Cartesia从一开始没走主流圈子还在卷的Transformer老路，一上来就盯准了实时语音AI。

正因为一开始目标就定得足够明确，以至于公司成立后的发展节奏可以用两个字概括——

那就是：飞快…

Cartesia成立的第二年，就拿下了种子轮融资，同年推出首款核心产品：语音模型Sonic，能生成跟真人一样自然、带情感的高质量语音。

今年又又又开始加速商业化和产品迭代，3月完成6400万美元的A轮融资，并发布了支持语音克隆与风格迁移的Sonic-2.0。

这不刚刚，他们又从Kleiner Perkins、Index Ventures、Lightspeed和NVIDIA那边筹钱，宣布完成了1亿美元的B轮融资。

从发布节奏到融资节奏，Cartesia基本把“边卷技术边收钱”这件事，执行到了极致了…

咱再回过头来看一眼这次跟融资一同发布的主角——Sonic-3。

这代语音模型相较于前作，最大的升级在于两个字：更像人。

它不仅能更准确地捕捉语言中的情绪波动，还能表达出笑声、语气起伏，以及那些微妙又真实的情感变化，而且响应非常快，不信你听：

与大多数依赖Transformer架构的语音AI不同，Sonic-3是基于状态空间模型（SSM）构建的。

传统Transformer的处理方式，是“反复回放”：每次生成回应前都要重新遍历所有对话历史，这种方式在多轮对话里既慢又容易“卡顿”。

而SSM更像人类大脑的思维模式，它能持续感知上下文和对话氛围，不需要每句话都从头再来一遍，AI回应的会更省力也更自然一些。

这也让Sonic-3在回应速度上也有了提升：Sonic-3模型延迟仅90毫秒，端到端响应时间只有190毫秒，几乎是当前速度最快的语音生成系统之一。

行了，照这趋势发展下去，开语音会的都不一定是真人了…

从斯坦福杀出的印度天才少年

Cartesia CEOKaran Goel目前人生履历完全可以拍成《三傻大闹宝莱坞·硅谷篇》。

他出身新德里一个做科研器材的老牌家族。

本科就读于印度理工学院德里分校，是印度最顶尖的工程院校之一，许多硅谷和印度创业者出自该校。

后来，又去卡内基梅隆大学计算机科学学院攻读了硕士学位，还获得了全球顶尖研究生才能拿到的Siebel Scholar奖学金。

随后直通斯坦福AI实验室，师从AI教父级人物Chris Ré。

没错，就是那位用Snorkel开创“弱监督数据标注”方法、后来把其初创公司Lattice卖给苹果的技术大牛。

此外，Karan Goel在校期间就对SSM颇有研究，在斯坦福读博期间就和Albert Gu等同门一起发表和状态空间模型相关的论文。

也就是在那个时候，一群斯坦福PhD生决定把学术研究直接“变现”成产品。

包括Karan Goel在内的团队成员，将他们在斯坦福AI Lab研究的状态空间模型（SSM）架构打包进了后来的Cartesia公司。

你品，你细品，从斯坦福杀出、从论文里走出，再到1亿美元砸进来——Cartesia走过来的每一步真可谓是“步步为营”啊～

光国外热闹，咱这边的语音AI产品也没闲着。

就在今天，MiniMax也上了新活儿——语音模型MiniMax Speech 2.6发布了。

这次升级主打一个“又快又能说”：

响应延迟压缩到250ms以内，支持40多种语言和所有口音，还能准确识别网址、邮箱、金额、日期、电话号码等各种“非标准文本”。

简单来说就是，以后哪怕你口音重、说得快，还掺着报邮箱和支付宝账号，它也能一次性听明白、说清楚。

好好好。

照这么下去，估计以后AI不光能学人说话，还能用说快板的速度讲自己的创业融资故事了。（doge）

以及还有一个小问题，据说语音模型的商业化变现，目前在大模型领域可谓一枝独秀，你听说了吗？

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

您可能感兴趣的与本文相关的镜像

Anything-LLM

Anything-LLM

AI应用

AnythingLLM是一个全栈应用程序，可以使用商用或开源的LLM/嵌入器/语义向量数据库模型，帮助用户在本地或云端搭建个性化的聊天机器人系统，且无需复杂设置

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。