- 博客(1017)
- 收藏
- 关注
原创 自 4O 之后,Voice 从 Assistant 到 Agent,新机会都藏在哪些场景里?|Voice Agent 学习笔记
今天的 AI 观察来自社区新朋友 Ada 的专栏「语音智能 | Voice, Evolved」。「从命令式助手变为对话型伙伴」,Ada 从技术和场景生态,关系和能力等多方面分析了为什么语音 AI Agent 变得越来越重要。期待文章对你有所启发!十年前,我们对语音的理解:听得懂你说的话,并替你执行命令。十年后,我们也许开始期待:像一个会说话的人,听懂你、理解你、回应你,甚至陪你一会儿。
2025-07-15 19:24:09
248
原创 专注服务实时多模态 AI,Cerebrium 宣布 850 万美元种子融资;英特尔发布 AI 语音游戏助手 SDK丨日报
我们欢迎更多的小伙伴参与。
2025-07-11 17:05:26
975
原创 从语音识别到智能助手:Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记
最近看到 Andrew Ng 的一句话让我印象深刻:“While some things in AI are overhyped, voice applications seem underhyped right now.”(尽管 AI 中有些领域被过度炒作,语音应用却似乎被低估了)。的确,在大模型、大生成的热潮中,Voice Agent 这一领域相比之下略显低调,但背后的技术变革与落地潜力正在悄然加速。
2025-07-11 16:28:26
711
原创 对话 AI 陪伴新宠 Tolan 创始人:拒绝「恋爱脑」,「非人」陪伴更受欢迎?丨 Voice Agent 学习笔记
好的,Ajay,我想先从你的创业故事开始。这件事发生的时间并不算久远,你们的增长速度令人难以置信。你们最近宣布获得了 1000 万美元的融资,这非常令人兴奋。那么,让我们从「为什么是 Tolan」开始,你是如何启动这个项目的?大约在 18 个月前,我们开始关注这一领域。当时正值 ChatGPT 发布,Midjourney 也获得了广泛关注。我们意识到,计算机展现出了前所未有的能力,或者说,它们能够完成过去无法完成的任务,这让我们深受启发。我们从 GPT 3.5 身上看到了它在文案写作等方面的潜力。
2025-07-10 18:46:30
608
原创 告别「一来一往」式对话,Soul App 全双工语音大模型让人机交互更有人情味丨社区来稿
近日,社区伙伴 Soul 分享了最新的全双工语音通话大模型,备受开发者们的关注。这篇文章进一步分享了背后双 LLMs 的结构细节。具体而言,SoulX-DuoVoice 包含一个负责对话理解与生成的 Dialogue Model 和一个负责语音生成的 Speech Model。同时还通过「说话时机」和「沉默持续时间」建模,打造了一个会主动打断、沉默的语音通话智能体模型。2025 年主动式语音 AI 进展迅速,也欢迎更多团队联系 RTE 开发者社区分享最新技术成果。
2025-07-09 18:52:58
758
原创 Meta 斥资 35 亿美元入股全球最大眼镜商;Proactor AI:实时监听语音对话,主动识别用户需求并自主行动丨日报
我们欢迎更多的小伙伴参与。
2025-07-09 18:30:11
969
原创 B 站推进视频播客战略,「代号 H」AI创作工具同步研发;工业级开源记忆操作系统 MemOS,支持模型持续进化和自我更新丨日报
我们欢迎更多的小伙伴参与。
2025-07-08 20:09:40
711
原创 对话式 AI workshop:Voice Agent 全球五城开发实录
过去几个月,TEN Framework 团队与 Agora 和声网围绕 “对话式AI”题,踏上了横跨全球五大城市的精彩旅程——东京、旧金山、巴黎、北京、京都。五场精心筹备的Workshop 场场爆满, 汇聚了来自当地及全球的开发者、创业者、产品经理与语音技术爱好者。得益于 RTE 开发者社区与全球多地 AI 社区的鼎力支持,我们得以深入探讨 Voice Agent 的前沿趋势、真实应用场景与落地开发实践。每一站,都上演着不同的故事,碰撞出独特的火花。现在,就让我们一起回顾这趟旅程的精彩瞬间!
2025-07-04 18:50:02
670
原创 基于世界模型的实时互动游戏引擎 Mirage:可自然语言创造可互动游戏;阿里开源 OmniAvatar:音频生成全身数字人视频丨日报
我们欢迎更多的小伙伴参与。
2025-07-03 16:55:15
1026
原创 Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
我们的客户涵盖各行各业,包括丰田这样的制造业企业,Figma 这样的云和软件公司,以及 90% 的福布斯云 100 强企业,还有 OpenAI 这样的人工智能研究实验室,他们都在 Notion 上运行。我的第一印象是,当时是夏天,非常炎热,而且天空灰蒙蒙的。最终,我们返回了旧金山,但我们非常喜欢在京都的经历,所以第二年,我们又回到了京都,再次这样做,找到了一家 hacker house。有趣的是,当我们住在京都时,我们将我们在旧金山的公寓出租了,因为那里的房价太贵了,我们实际上可以通过这种方式赚钱。
2025-07-02 18:46:21
944
原创 知音助聋研发AR字幕手语眼镜,能将手语合成声音;阿里开源泛音频生成模型 ThinkSound 和 2531.8h 的数据集丨日报
我们欢迎更多的小伙伴参与。
2025-07-02 18:28:43
1297
原创 Meta 成立超级智能实验室,多名顶尖语音科学家加入;TEN VAD 开源 ONNX 模型,GitHub 破 700 星丨日报
我们欢迎更多的小伙伴参与。
2025-07-01 18:56:50
986
原创 对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
从 Wispr Flow 可以很好地看出一个关注产品本身、且具有”产品Sense“的一个 AI 产品是怎样被创造出来的。而对于 Voice AI Interface 这一全新的交互,对于所有创业者来说都是一种全新的体验的探索。第一,用户体验重于技术指标。传统的语音识别产品追求准确率,但 Wispr Flow 追求的是"零编辑"的用户体验。这个差异看似微小,实则代表了完全不同的产品哲学。核心是从用户角度出发,什么是你希望带给用户的一种好的用户体验?
2025-07-01 17:51:54
900
原创 语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记
语音技术并不新鲜,但为什么 Wispr Flow 能在现在获得成功?我认为有几个关键的时机因素。首先是大语言模型的成熟。以前的语音识别系统主要依赖统计模型和规则系统,无法真正理解语言的语义和上下文。而现在的大语言模型具备了真正的语言理解能力,这为智能的语音交互提供了技术基础。其次是用户期望的改变。经历了 ChatGPT 和其他 AI 工具的用户现在期望技术能够理解自然语言。他们不再满足于机械的命令式交互,而是期望更自然的对话式体验。这种期望的转变为语音交互创造了市场机会。
2025-06-30 21:02:41
833
原创 参赛报名|百万奖金+全球曝光:2025港科百创赛事正式启动!
关于香港科技大学香港科技大学(香港科大)(https://www.hkust.edu.hk/)是国际知名的大学,致力推动创新教学、卓越研究及具影响力的知识转移。香港科大着重为学生提供全面及跨学科的教学,于《泰晤士高等教育全球年轻大学排名榜2024》中排行第三,在《泰晤士高等教育大学影响力排名2024》中全球排第19、全港第一。另有13个科目跻身《2025年QS世界大学学科排名》全球50强,其中「数据科学及人工智能」学科全球排名第17位,蝉联本地大学之冠。
2025-06-27 18:39:42
600
原创 三星 Galaxy Buds 将提供 AI 实时翻译功能;中科院开源语言-视觉-语音多模态模型 Stream-Omni丨日报
我们欢迎更多的小伙伴参与。
2025-06-27 14:36:48
995
原创 小米 AI 眼镜:主打「小爱 AI 语音助手」和「第一视角拍照录像」;出门问问发布硬件 TicNote:录音过程可发起对话丨日报
我们欢迎更多的小伙伴参与。
2025-06-26 20:41:12
702
原创 ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
大家好~这是 Voice Agent 学习笔记系列的第 30 篇。我是课代表赵怡岭~对话式 AI 语音智能体想要摆脱机械感,关键在于有效的提示词设计。作为估值超 30 亿美元的 AI 语音交互头部公司,Eleven Labs 公开了其实验室验证的提示词指南。这套体系旨在帮助 AI 对话从机械应答跃升为自然交流。这六大要素构成了一套系统化的方法论,为开发者和设计师提供打造流畅自然交互体验的「灵魂秘籍」。指南附带示例代码,可应用于客户支持、教育、心理咨询等多个领域。
2025-06-26 20:06:17
787
原创 夏至之日,共赴实时 AI 之约:RTE Open Day@AGI Playground 2025 回顾
每年 RTE 开发者社区的重磅活动——,也在六月的 AGI Playground 现场开启今年的行程。这是 RTE Open Day 第五期现场,这期我们的关键词是 「Real-Time AI」 和 「Voice Agent」,不仅有来自社区的 16 个项目,还有两场对话式 AI workshop。
2025-06-25 20:25:22
731
原创 语音 AI 转录应用 Wispr Flow 融资 3000 万美元;饿了么骑手 AI 助手:支持语音唤醒,会主动发起询问丨日报
我们欢迎更多的小伙伴参与。
2025-06-25 19:59:10
628
原创 ElevenLabs 推出语音 AI 日程助理 11ai;AI 客服初创 Decagon 新一轮融资,估值 15 亿美金丨日报
我们欢迎更多的小伙伴参与。
2025-06-24 19:10:29
958
原创 线上活动丨主动式语音 AI:全双工、对话轮次管理、VAD 技术交流会丨RTE Meetup
一同探索语音驱动的下一代人机交互界面,voice agent builder 的小规模深度交流会。当用户走在街上时,AI 可以主动提醒他们注意未察觉的来车或骑行者,甚至推荐附近不为人知的特色咖啡馆。同样,如果系统检测到用户持续表达消极情绪,并沉溺于负面想法中,它可以主动介入,推荐一项专门定制的、有助于平静心绪的活动,而非被动等待用户寻求帮助。……这种能力使 AI 超越了被动工具的定位,转变为值得信赖的伙伴和队友,能够无缝融入我们的日常生活。
2025-06-24 18:52:43
578
原创 《对话式 AI 白皮书》共创者招募
在 AI Agent 技术不断演变的当下,共创一本不断演变的对话式 AI 白皮书,共同探索人机对话的新纪元。无论你是开发者、技术专家、生态伙伴还是创业者,都期待你的加入。项目地址:https://github.com/RTE-Dev/book_era_convoai/在刚过去的 AGI Playground 大会上,我们分享了对话式 AI 和语音智能体前沿进展的同时,也向社区发起了《对话式 AI 白皮书》的共创邀请。
2025-06-23 20:04:03
789
原创 DeepMind 开源实时音乐生成模型 Magenta Real-time;Martin:可语音对话的 AI 日程助理丨日报
我们欢迎更多的小伙伴参与。
2025-06-23 19:09:38
681
原创 Kyutai 开源 STT 模型,支持流式传输;AI 虚拟角色桌面设备 Dipal D1:会动、会说话、会回应你丨日报
我们欢迎更多的小伙伴参与。
2025-06-20 19:35:01
649
原创 11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
我认为社交渠道对于核心效果营销渠道来说更难衡量。对于效果营销渠道,标准非常明确:客户获取成本 (CAC) 是否低于用户的预期生命周期价值 (LTV)?比如说,对于联盟营销和各种付费营销,这非常清楚。但对于自然增长渠道,特别是企业营销,衡量这种关系要困难得多。我的做法是,你必须着眼于更长的时间维度,并允许更模糊的归因。例如,我们即将在旧金山进行大规模的企业营销推广,我们会投放广告牌、播客广告、新闻通讯广告,并在当地举办活动。
2025-06-20 19:14:30
675
原创 创新和商业潜力兼具的 Real-Time AI 长什么样?丨RTE Open Day@AGI Playground 参会指南
这场盛会将汇聚创业者、开发者和 20 多个 AI 社区的游玩者。RTE 开发者社区的 Builders 和 RTE Open Day 也将玩乐其中!好奇 Real-Time AI 和 Voice Agent都有哪些?最近一年在社区涌现的将告诉你答案。来 RTE Open Day 展区与创新项目背后的鲜活个体交流,同时!从社区成长起来的开源框架也将邀请了等伙伴,一起举办两场,邀请你拆解 Voice Agent 行业前沿,并动手打造属于自己的实时语音对话 avatar!
2025-06-17 21:23:04
938
原创 Meta 和 Oakley 将推出运动 AI 眼镜;Deepgram 发布 Voice Agent API,每小时 4.5 美元
浙大、vivo 最新出的一款视频虚拟试衣模型:MagicTryOn,服装的时空一致性、稳定性、服装细节都达到了很好的效果,其效果图可以直接用于电商广告了。该模型支持图像试穿、视频试穿,以及自定义试穿,并且擅长在比如跳舞这种人体大幅度运动,以及复杂场景中试穿。同时该模型具备泛化能力,支持在玩偶上进行虚拟试衣。另外,该模型其用扩散 Transformer 取代 U-Net 架构,来提升模型的表达能力;结合全自注意力机制联合建模视频的时空一致性,确保试衣效果在时间和空间维度上自然流畅。
2025-06-17 18:28:05
576
原创 蚂蚁开源统一多模态模型 Ming-Omni,多模态输入与生成;OpenAI 将与芭比娃娃制造商合作 AI 玩具丨日报
The Browser Company 推出的以 AI 为核心的全新浏览器现已对 Arc 会员开放。虽然 Dia 还处于测试阶段,仅适用于 Mac,但其核心目标非常明确:通过 AI 技术将日常的网络浏览体验提升到新的层次。Dia 内置了一个类似 ChatGPT 的 AI 聊天工具。用户可以随时呼叫 AI 助手,进行网站内容查询、任务管理和浏览历史回顾,简化信息获取和操作流程。通过分析用户的浏览习惯和网站访问记录,Dia 提供了高度个性化的功能。
2025-06-16 19:16:00
581
原创 「RTE Builder」项目寻踪!推荐项目,瓜分社区奖励~
大噶好!好久不见,最近我们的在线社区默默做了一些迭代,增加了很多新功能:🎉支持新的播客列表页面,可以在站内顶部导航栏直接访问。🎉项目列表页更新:支持列表页直接推荐项目;并在每个分类下新增聊天室功能。有没有细心的观众发现!!!举手让我看看!!!那么说到这里——🔥🚀现在加入「RTE 开发者社区」首届「RTE Builder」项目寻踪计划,发布好产品、赢取社区大奖,让你的项目登上热门榜!
2025-06-16 18:46:02
615
原创 阶跃星辰开源 130B 端到端语音大模型 Step-Audio-AQAA;MiniMax计划发布独立音频生成应用丨日报
我们欢迎更多的小伙伴参与。
2025-06-13 15:50:16
903
原创 上海的朋友来找 RTE 社区交流吧!丨亚马逊云科技中国峰会,6.19-20,上海世博中心
以最终现场日程为准此外,具备亚马逊云科技认证的与会者,还可进入认证精英会专属空间,享受职业照拍摄、定制礼品、专属茶歇等尊贵体验。拿下亚马逊云科技全系列12张以上认证的最高荣誉,即可在认证精英会获得久负盛名的亚马逊云科技“黄金夹克”!别让灵感等待!即刻注册参会6月19-20日与全球开发者一起探索AI与云计算的无限可能!年度必看的科技盛会,点击下方小程序即刻参会!
2025-06-12 19:28:42
880
原创 Cartesia 发布实时 STT 模型 Ink-Whisper;Niantic 与 Snap 合作 AR 眼镜地图系统 丨日报
我们欢迎更多的小伙伴参与。
2025-06-12 19:16:37
797
原创 语音独角兽 ElevenLabs 创始人:人性中的不完美,恰是人愿意互动的关键;秘塔「今天学点啥」:解析复杂内容语音讲解丨日报
我们欢迎更多的小伙伴参与。
2025-06-11 23:03:08
658
原创 活动报名|北京新质人才嘉年华暨 GTN,你想要的高质量科创社交派对!6.13,北京
算法驱动的浪潮正呼啸而来,以惊人的速度重塑一切身处AI爆发的风口,人与智能交织共存你是时代的旁观者?还是未来的定义者?当AlphaFold破解蛋白质折叠密码当ChatGPT掀起人机对话革命当DeepSeek在多模态认知领域实现突破性进展人工智能正以指数级进化速度重构人类认知边界在这场静默的范式转移中"新质生产力"不再停留于纸面构想而是化作海淀AI原点社区即将迸发的璀璨星河6月13日(星期五)下午14:00AI共生时代创变者峰会将在海淀AI原点社区启幕!这里没有空泛的概念演绎。
2025-06-11 22:51:38
750
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人