黄仁勋投了家复刻马斯克声音的AI公司

部署运行你感兴趣的模型镜像
梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

如果我不说,你能分清哪个是马斯克本人的声音吗?

大NO特NO!!!其实这俩都不是。。。

这段堪比“本尊”的语音,就出自语音AI公司Cartesia刚刚发布的语音模型Sonic-3

伴随新模型对外公布的还有新融资:

Cartesia披露完成1亿美元的B轮融资,投资方里英伟达赫然在列。

此外,这家公司之所以如此受关注,还跟其创始人密切相关。

其创始人、CEO是来自斯坦福AI Lab的印度天才少年Karan Goel ,之前就在状态空间模型(SSM)领域锋芒毕露了。

是时候认识认识Cartesia了~

融资+上新,两件大事一块来

Cartesia这家公司,开局就是典型硅谷精英剧本。

Cartesia的初始核心成员,清一色来自斯坦福AI实验室,妥妥的学术派大拿班底。

其中,Cartesia首席科学家和联合创始人Albert Gu还是一名华裔,也是是Mamba架构的共同发明人之一。

从左往右第三位为Albert Gu

其实,Cartesia从一开始没走主流圈子还在卷的Transformer老路,一上来就盯准了实时语音AI。

正因为一开始目标就定得足够明确,以至于公司成立后的发展节奏可以用两个字概括——

那就是:飞快…

Cartesia成立的第二年,就拿下了种子轮融资,同年推出首款核心产品:语音模型Sonic,能生成跟真人一样自然、带情感的高质量语音。

今年又又又开始加速商业化和产品迭代,3月完成6400万美元的A轮融资,并发布了支持语音克隆与风格迁移的Sonic-2.0

这不刚刚,他们又从Kleiner Perkins、Index Ventures、Lightspeed和NVIDIA那边筹钱,宣布完成了1亿美元的B轮融资。

从发布节奏到融资节奏,Cartesia基本把“边卷技术边收钱”这件事,执行到了极致了…

咱再回过头来看一眼这次跟融资一同发布的主角——Sonic-3

这代语音模型相较于前作,最大的升级在于两个字:更像人。

它不仅能更准确地捕捉语言中的情绪波动,还能表达出笑声、语气起伏,以及那些微妙又真实的情感变化,而且响应非常快,不信你听:

与大多数依赖Transformer架构的语音AI不同,Sonic-3是基于状态空间模型(SSM)构建的。

传统Transformer的处理方式,是“反复回放”:每次生成回应前都要重新遍历所有对话历史,这种方式在多轮对话里既慢又容易“卡顿”。

而SSM更像人类大脑的思维模式,它能持续感知上下文和对话氛围,不需要每句话都从头再来一遍,AI回应的会更省力也更自然一些。

这也让Sonic-3在回应速度上也有了提升:Sonic-3模型延迟仅90毫秒,端到端响应时间只有190毫秒,几乎是当前速度最快的语音生成系统之一。

行了,照这趋势发展下去,开语音会的都不一定是真人了…

从斯坦福杀出的印度天才少年

Cartesia CEOKaran Goel目前人生履历完全可以拍成《三傻大闹宝莱坞·硅谷篇》。

他出身新德里一个做科研器材的老牌家族。

本科就读于印度理工学院德里分校,是印度最顶尖的工程院校之一,许多硅谷和印度创业者出自该校。

后来,又去卡内基梅隆大学计算机科学学院攻读了硕士学位,还获得了全球顶尖研究生才能拿到的Siebel Scholar奖学金。

随后直通斯坦福AI实验室,师从AI教父级人物Chris Ré

没错,就是那位用Snorkel开创“弱监督数据标注”方法、后来把其初创公司Lattice卖给苹果的技术大牛。

此外,Karan Goel在校期间就对SSM颇有研究,在斯坦福读博期间就和Albert Gu等同门一起发表和状态空间模型相关的论文。

也就是在那个时候,一群斯坦福PhD生决定把学术研究直接“变现”成产品。

包括Karan Goel在内的团队成员,将他们在斯坦福AI Lab研究的状态空间模型(SSM)架构打包进了后来的Cartesia公司。

你品,你细品,从斯坦福杀出、从论文里走出,再到1亿美元砸进来——Cartesia走过来的每一步真可谓是“步步为营”啊~

光国外热闹,咱这边的语音AI产品也没闲着。

就在今天,MiniMax也上了新活儿——语音模型MiniMax Speech 2.6发布了。

这次升级主打一个“又快又能说”:

响应延迟压缩到250ms以内,支持40多种语言和所有口音,还能准确识别网址、邮箱、金额、日期、电话号码等各种“非标准文本”。

简单来说就是,以后哪怕你口音重、说得快,还掺着报邮箱和支付宝账号,它也能一次性听明白、说清楚。

好好好。

照这么下去,估计以后AI不光能学人说话,还能用说快板的速度讲自己的创业融资故事了。(doge)

以及还有一个小问题,据说语音模型的商业化变现,目前在大模型领域可谓一枝独秀,你听说了吗?

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

您可能感兴趣的与本文相关的镜像

Anything-LLM

Anything-LLM

AI应用

AnythingLLM是一个全栈应用程序,可以使用商用或开源的LLM/嵌入器/语义向量数据库模型,帮助用户在本地或云端搭建个性化的聊天机器人系统,且无需复杂设置

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值