- 博客(1117)
- 收藏
- 关注
原创 Step-Audio-R1:音频深度推理模型;Soul 冲刺港交所,「AI+沉浸式社交平台」,累计注册用户达 3.9 亿丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考。
2025-12-02 10:05:44
555
原创 Nari Labs 更新 TTS 模型 Dia2,将推出语音到语音引擎;谷歌或重启 AI 眼镜,最快明年四季度发布丨日报
我们欢迎更多的小伙伴参与。
2025-11-29 16:46:59
689
原创 全球首个语音 AI 广告平台问世;Sam Altman 与 Jony Ive:合作新硬件将「如湖畔山间小屋般平静」丨日报
我们欢迎更多的小伙伴参与。
2025-11-28 18:42:52
627
原创 活动推荐丨「实时互动 × 对话式 AI」主题有奖征文
声网博客www.shengwang.cn/blog/ 正式启航啦!这是一个聚焦实时互动(RTE) × 对话式 AI(Conversational AI) 的内容空间。我们关注技术背后的Why,探讨应用场景的What if,分享实战经验的How better。在声网博客,我们希望呈现:技术解析:从原理到落地的深度剖析。应用创新:实时互动与对话式AI 如何重塑场景。实战经验:工程师世界里的技术挑战与解法。趋势洞察:对未来技术范式的思考。
2025-11-28 18:25:15
830
原创 2024年-2025年开源语音数据汇总:数十万小时多语种、儿童老人语音、医疗健康等(截止2025年11月)
本文转载自「乐百一家」,如果你关注语音模型和算法,这一个不容错过的宝藏且高产的公众号。最近两年开源数据越来越多,大家也意识到,无论是语音识别、语音合成,还是情感分析、多模态交互,高质量的数据集都是技术进步的基石。今天为大家整理了 2024-2025 年最新发布的开源语音数据集,涵盖中文、英文、多语种等多个方向,每个数据集都附上了直接下载链接,方便大家学习和研究。另本文遗漏部分,欢迎大家在文末评论,后续会动态更新整理到一起,做成专栏的形式,方便大家查阅。
2025-11-27 11:26:39
807
原创 Vibe Coding 的爱与恨:AI 开发流程设计和工程哲学丨开发者工具专场@RTE2025 回顾
—TTS(文本转语音)环节做了大量投入,力求在这个可控的环节做到极致。MiniMax 在 TTS 方面取得了可观地位(
2025-11-27 11:03:52
1023
原创 为实时智能体而建的 AI Infra丨Real-Time AI Infra 技术专场@RTE2025 回顾
在本届 RTE2025 大会上,来自产业界和学术界的多位专家深入探讨了为什么超低延迟的实时 AI 是实现人机交互无缝融入日常生活的关键。从推理加速、流式模型设计,到高并发调度,都对底层设施提出了极限挑战。硅基流动联合创始人、Baseten Voice AI 负责人、元始智能 COO等技术专家、开发者和创业者,共同拆解 AI 的基础设施和新逻辑、分享他们在各自领域的实践经验和独到见解。TEN Framework 的 creator和硅基流动联合创始人分别主持了活动主题分享和圆桌讨论环节。
2025-11-26 09:48:22
960
原创 AI 客服公司 Sierra ARR 破 1 亿美元;育碧推出 AI 语音游戏《队友》:语音指令掌控战局,NPC 即兴互动丨日报
我们欢迎更多的小伙伴参与。
2025-11-25 11:05:40
971
原创 声网 CEO 赵斌:对话式 AI 加速 RTE 进化,实时互动步入万亿分钟时代
在 10 月 31 日召开的声网 Convo AI & RTE 2025 第十一届实时互联网大会主论坛上,声网创始人兼 CEO 赵斌发表了题为《对话式 AI:实时互动的新篇章》主旨演讲。,标志着实时互动(RTE)正式进入全新的规模化应用阶段。今年 8 月,WebRTC 的全球搜索量出现了前所未有的激增,充分印证了开发者和行业对 RTE 技术的新一轮关注。随着强大的对话式 AI 工具进入市场,为助力企业和开发者抓住这一机遇,声网在大会上正式发布了,为行业提供了一套系统的实践指南。
2025-11-25 10:44:35
683
原创 GPT5.1 告诉你如何与电脑对话控制一切软件:复现 Caddy(YC F25)的愿景丨社区来稿
只把“压缩后的语义信息”发给服务器,而不是裸截图/全文。
2025-11-20 22:18:06
749
原创 AI 语音转贴纸,儿童打印机 Stickerbox 融资 700 万美元;Spatial AI 发布第一人称真实世界数据集丨日报
( @APPSO)
2025-11-19 19:47:16
897
原创 在 RTE2025 大会,我看到了 AI 语音如何让机器学会「与人相处」丨社区来稿
AI语音技术正从“工具性”走向“关系性”。从会陪伴的芙崽Fuzozo,到能教学的LOOKEE,再到帮助企业洞察用户的ValidFlow.AI,这些产品不再强调技术的强大,而是聚焦于如何让AI更懂人心。技术最终要为体验服务。当AI学会了倾听与对话,它不再只是执行命令的工具,而成为我们生活中有温度的伙伴。这或许就是对话式AI最美好的前景——不是取代人类,而是以更自然的方式与人“相处”,让技术真正服务于人的情感需求。我相信,我们迎来的将是一个更有温度的数字未来。
2025-11-19 18:11:54
953
原创 不只做语音,ElevenLabs 推出图像和视频生成平台;博通推出语音 AI 芯片,实现端侧 TTS 和实时翻译丨日报
我们欢迎更多的小伙伴参与。
2025-11-19 17:59:45
651
原创 大模型语音呼叫智能体「云蝠智能」完成 A+轮数千万融资丨社区成员项目
云蝠智能现已完成了由金沙江创业投资领投的 A+ 轮融资,鞍羽资本担任独家财务顾问。作为国内第一批直接采用大模型从事智能语音客服的企业,云蝠智能其全栈自研的「神鹤大模型」支撑着语音智能体在 3-5 分钟内快速构建上下文对话能力。云蝠智能不仅是「超音速计划 2025·Voice Agent Camp」的优秀学员,更在刚结束的 RTE 2025 年度 Demo Day 中脱颖而出,位列三强。RTE 开发者社区作为云蝠智能在创业征途中的重要陪跑者和成长伙伴,一路见证了其技术产品的迭代升级与融资里程碑。
2025-11-18 08:05:48
636
原创 从「跨模态思维链」到「物理 AI 数据闭环」:下一代多模态技术和落地丨多模态技术专场@RTE2025 回顾
商汤科技多模态交互产品负责人路少卿发现,即使是市面上最新的模型,在处理涉及视觉理解、空间认知和复杂图文推理的任务时,也表现出明显的缺失。并提出了商汤未来必须攻克的方向——从文本推理到原生融合的统一多模态大模型。目前的多模态模型依然停留在 VLP(视觉语言预训练)+ LLM的 Merge 阶段(即 VQA 任务),缺乏真正原生融合后产生的跨模态思维链推理能力。商汤的核心路径是追求统一深度的多模态大模型,目标是实现理解与生成融合统一,并激活类人的多模态思维链能力。针对图文交错的推理难题,商汤构建了。
2025-11-18 07:56:03
760
原创 灵宇宙获 2 亿新融资,要做 AI 世界操作系统;Vogent :自然语言描述生成语音智能体丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-11-17 22:52:24
727
原创 文心大模型升级 5.0,支持全模态输入与输出;Google SIMA 2:在虚拟 3D 世界交互、推理和学习丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-11-15 10:28:49
861
原创 社区来稿丨RTE 大会带给我的 AI Agent Infra 启发
Runtime、模块化、测试、模板化——这些决定了一个系统能否“持续运行”,而不仅仅是“能运行”。: “AI 系统的不可控性,意味着独立模块的测试可能无法捕捉链路级的漂移。一个真正工程化的 Agent Infra, 不该是一条死板的管线,而应是一组可以拼接的“积木”。这篇文章,我想聊聊我从这次演讲里得到的Agent Infra启发—— 包括 Runtime、模块化、测试与架构设计的思考。推理在 Python,音视频在 C++,交互在 JS—— 每一次跨语言通信(IPC),都是延迟与性能的代价。
2025-11-15 10:12:24
598
原创 主动交互和情境感知,AI 硬件是脱离手机屏幕掌控的蓝海机会丨硬件和端侧模型专场@RTE2025 回顾
赵维奇认为最终的边界感落在了「懂你、懂场景、懂用户」上,
2025-11-13 22:29:16
1246
原创 一场论坛捕捉 26 年语音 AI 关键词:思考机制、专有模型、低功耗、超低帧率、多语种、语音增强……丨RTE2025 回顾
在 Convo AI & RTE2025 大会上,来自产业界和学术界的多位专家深入探讨了智能语音技术、大模型时代的语音交互范式变革及其在实时互动场景中的挑战与机遇。科大讯飞寰语 AI 研究院副院长、声网音频体验与方案负责人、香港中文大学(深圳)副教授、小米大模型 Core 团队首席研究员、西北工业大学教授、上海交通大学特聘教授声绘未来(北京)科技有限公司的 CEO等分享了他们在各自领域的研究成果和独到见解。科大讯飞 AI 工程院副院长和声网音频算法负责人分别主持了主题分享和圆桌讨论环节。
2025-11-12 07:55:57
960
原创 Meta AI 推出全语种语音识别系统,支持 1600+语言;谢赛宁、李飞飞、LeCun 联手发布「空间超感知」AI 框架丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-11-11 22:44:32
939
原创 第五届 RTE 年度 Demo Day 三强公布!看到对话式 AI 的 N 种未来
10 月 31 日,Convo AI & RTE2025 大会现场,可能是地球上「Her」密度最高的一天。「Voice Agent Camp」创新场景暨第五届 RTE 年度 Demo Day 线下开秀。来自 Voice Agent Camp 的 4 个优秀项目,以及 3 个海内外多模态 AI 项目、3 个 RTE 开发者社区优秀项目,用 3 小时高能 Demo 交出一份「实时互动 × 对话式 AI」的年度答卷。最后,摘得年度三强,获得年度创新奖,四个项目覆盖。
2025-11-11 22:20:45
633
原创 英伟达领投,语音AI初创Uniphore估值25亿美元;ElevenLabs创始人:语音的意义不在准确,而在打动丨日报
开发者朋友们大家好:这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@Jerry fong,@鲍勃。
2025-11-06 23:06:17
864
原创 Mappa 语音 AI 招聘:声学信号分析候选人表现,ARR 300 万美元;上海银行推出首个沪语交互 AI 应用丨日报
我们欢迎更多的小伙伴参与。
2025-11-06 08:54:13
806
原创 社区伙伴活动推荐丨AI“头号玩家”请入场,星河超级个体Hackathon正式开启招募!
星河社区携手百度文心快码、BV百度风投、浦东新区AI种子基金、模力社区、科创领军·上地专属孵化器、Vπ张江孵化器、云晖资本、INNONATION创新国度国际孵化器、焕新社区、mixlab、DataWhale、WaytoAGI、RTE开发者社区、北大创新学社、清华创业协会、上海交大创新创业协会、上海科技大学创业指导站、小红书等投融资机构、云算力平台、开发者社区、高校协会、内容合作平台共同提供生态支持和项目共建,让我们一起在代码、模型和想象力之间,创造AI真正的现实影响力。开启报名通道,由百度文心大模型、
2025-11-06 08:38:41
296
原创 Genspark 新融资逾 2 亿美元,腾讯、红杉中国参投;Ask Copilot 入驻 Windows 任务栏丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-11-05 08:55:57
1107
原创 社区伙伴活动推荐 | 2025年声纹处理研究与应用学术研讨会11月深圳启幕
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
2025-11-04 08:56:43
200
原创 【无标题】
2025 年 10 月 31 日~11 月 1 日,由声网和 RTE 开发者社区联合主办的将在北京·悠唐皇冠假日酒店正式开启!携手近 20 家伙伴齐聚大会现场,等候实时互动领域的开发者们前来体验、交流!此外还有……总有一项活动能让你深度参与,并感受到最前沿技术和最有趣的一群开发者和初创者!最后更别忘了游园打卡,领取礼品🎁!如果有兴趣一起共建活动,也欢迎成为社区志愿者。📍👇👇。
2025-10-30 09:02:18
605
原创 就在本周五!全球首款 AI 主题桌游试玩会丨Convo AI&RTE2025
时间:10 月 31 日 9:30-10:30, 11:00-12:00, 14:30-15:30, 16:00-17:00。成功报名的朋友,均获赠**《Talk With》桌游**一份。你还会遇到带来**「命运大逆转」**的「市场行情卡」,或让你起死回生,或是半路遇到了黑天鹅!地点:RTE 2025 大会现场,北京悠唐皇冠假日酒店,塞纳厅******「金伯乐奖」**则属于最具投资眼光的伯乐。**「独角兽奖」**授予资本最雄厚的创业者,假如你对** AI 技术或创业**,尤其是。,我们会提供现场教学指导。
2025-10-29 08:51:08
417
原创 ListenHub:让编辑 AI 播客像用 Word 一样简单;前天猫精灵总裁创业:运动可穿戴 +智能体切入通用智能丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-10-29 08:22:21
930
原创 年度 Demo Day!见证语音 AI 年度场景诞生!丨Convo AI&RTE2025
不妨亲临现场,见证 「Voice First」理念下,真正创意和商业潜力兼具的初创项目。「Voice Agent Camp 创新场景暨第五届 RTE 年度 Demo Day」是 RTE2025 大会的一部分。将覆盖 AI 语音客服、AI 陪伴、AI 社交、AI 调研访谈、AI 硬件、AI 教育等多个场景。的资深投资人和创业者,也会在现场与 founder 提问交流,碰撞灵感。结营路演的前四强,还有多家海内外实时多模态 AI 项目。和更多的 voice agent 和实时多模态。demo 项目除了来自。
2025-10-25 11:00:14
296
原创 提交一张 PPT,参与 RTE2025 全球语音智能体云展示
🎉 我们特别为你的项目提供了一个云展示机会。只需提交一张 PPT,即可参与我们的「全球语音智能体云展示」,与众多领先的语音智能体一同在大会展区屏幕上轮播展示!🤝 注意:大会现场参展或有主题分享的项目请勿提交,把机会留给未到场的朋友!📝 内容:项目介绍和联系方式二维码,可含图片、文字、视频等。🎬 视频 (如有):清晰流畅,时长 ≤ 2 分钟。✅ 筛选标准:项目质量、社区参与度、主题关联度。📄 文件格式:1 张 PPTX 文件。图片扫码或访问 url 报名吧!🗣 项目主题:语音 AI 相关。
2025-10-24 13:00:57
147
原创 Decart 发布口型实时同步 API;云蝠语音智能体发布网页语音客服模块丨日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-10-24 10:45:25
789
原创 下一代 AI Agent 的基石:Real-Time AI 新基建丨Convo AI&RTE2025
超低延迟的实时 AI 是实现人机交互无缝融入日常生活的关键。从推理加速、流式模型设计,到高并发调度,都对底层设施提出了极限挑战。来 Convo AI & RTE2025 「Real-Time AI Infra专场」,加入我们的讨论,一同提问,一同寻找答案!将剖析实时 AI Infra 的核心技术,为下一代智能应用的爆发构建坚实基础。林玥煜, 元始智能算法工程 VP,RWKV 语音项目负责人。赶快扫码预约,抢占先机!程天舒,Baseten Voice AI 负责人。杨攀,硅基流动联合创始人。
2025-10-24 10:23:39
300
原创 FishAudio 推出 S1 模型:2 万开发者,500 万美元 ARR;蛐蛐开源桌面语音输入工具,优化编程术语识别丨日报
我们欢迎更多的小伙伴参与。
2025-10-22 09:17:17
912
原创 李飞飞世界模型 RTFM:单个 H100 GPU 跑出实时 3D 宇宙;PaddleOCR-VL:0.9B 多模态文档解析|日报
我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
2025-10-18 09:42:09
1147
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅