• 博客(935)
  • 收藏
  • 关注

原创 MiniMax 发布新 TTS 模型 Speech-02,轻松制作长篇有声内容;Meta 高端眼镜年底推出,售价上千美元丨日报

开发者朋友们大家好:这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

2025-04-02 18:51:57 1006

原创 与 AI 共处 72 小时,没有食物、水、手机,会发生什么|寻找「赛博鲁滨逊」

更多 Voice Agent 学习笔记:a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过多模态 AI 怎么玩?这里有 18 个脑洞AI 重塑宗教体验

2025-04-02 18:14:19 241

原创 a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

这很有趣,

2025-04-01 21:17:08 986

原创 字节开源轻量级 TTS 模型 MegaTTS3,中英切换自如;面壁首个纯端侧智能助手「上车」,支持多模态交互丨日报

我们欢迎更多的小伙伴参与。

2025-03-31 16:12:16 803

原创 ElevenLabs 对话式 AI 支持 RAG;阿里 TaoAvatar 快速生成 3D 数字人:实时渲染兼容移动设备丨日报

我们欢迎更多的小伙伴参与。

2025-03-28 17:26:25 887

原创 昆仑万维发布 Mureka TTS API 和音乐推理大模型;通义发布小尺寸端到端多模态模型 Qwen2.5-Omni丨日报

Lemni 允许用户创建 AI 智能体,负责处理所有客户互动,并在无需增加人手的情况下,实现高度个性化的沟通——涵盖电话、邮件支持以及主动外联。使用 Lemni,你可以在不扩张团队的前提下扩展业务。

2025-03-27 19:44:23 614

原创 直播预告丨手把手教你让 DeepSeek 开口说话

直播预告丨手把手教你让 DeepSeek 开口说话 声网资深产品经理实践教学,“小白”都能看懂的0到1攻略,让 DeepSeek 开口说话就是这么简单。👉🏻快快扫描图2中的二维码提前预约直播吧!

2025-03-26 21:45:22 71

原创 Google 发布 Gemini 2.5 Pro 模型:思考+多模态;Vibe Coder :通过语音对话实现「氛围编程」丨日报

我们欢迎更多的小伙伴参与。

2025-03-26 16:02:45 857

原创 什么是「Agentic 工作流程」?丨社区来稿

摘要分享者:Richard 林旅强(RTE 开发者社区联合主理人)什么是「Agentic 工作流程」?它是一种让 AI 智能代理(Agent)更主动、更灵活、更像人的方式来处理复杂任务的系统。刚才读到了一篇言简意赅的文章(链接在文末),我想就基于以下每一张文中的图示,来说说什么是 Agentic Workflow、有哪些组成、流程模式与应用场景吧。

2025-03-25 20:04:03 970

原创 Dify+Agora 快速打造语音智能体;ISSEN:个性化 AI 语言老师,可语音交互丨日报

我们欢迎更多的小伙伴参与。

2025-03-25 19:19:27 960

原创 FeedbackStream:8 分钟创建 AI 面试智能体;Moshi 开源图像理解实时语音模型 MoshiVis 丨日报

我们欢迎更多的小伙伴参与。

2025-03-24 19:39:14 709

原创 OpenAI 发布新一代 STT/TTS 模型,10 行代码构建 Voice Agent;声网推出对话式 AI 开发套件丨日报

我们欢迎更多的小伙伴参与。

2025-03-21 16:16:50 706

原创 Second Me:在 AI 中保留自我的火种丨社区来稿

这是一个全新的 AI 物种(AI 身份模型),他不想要对齐全人类,他只想对齐一个人,就是你自己。于是,他成为了 “AI 版本的身份”。这是一个开源的早期研究原型,每个人都可以在本地,隐私、安全的训练这个独特的 AI 新物种,并作为身份接口接入世界。这是一个由 AI身份 构成的原生网络,就像最早的互联网,他倡导开放、共建,参与者以 AI 的形态来看见彼此,来一起建设。这也是一种创新的AI原生应用的尝试,每一个创建的应用,都是为了让 “你的AI身份” 代表你来使用,而不是你。

2025-03-20 20:34:51 719

原创 月暗推出音频模型 AudioX:任意内容生成音频和配乐;开源 TTS 模型 Orpheus,可生成叹息、笑声等非文本线索丨日报

我们欢迎更多的小伙伴参与。

2025-03-20 19:54:49 943

原创 Amphion 推出合成音频鉴别系统 Auditi;Gemini 引入 NotebookLM 功能,生成文档、网页音频摘要丨日报

我们欢迎更多的小伙伴参与。

2025-03-19 19:43:56 1041

原创 Zoom 全线产品引入 Agent,实现语音转录总结和语音客服等功能;谷歌云推出 TTS 模型 Chirp 3丨日报

我们欢迎更多的小伙伴参与。

2025-03-18 19:32:39 870

原创 ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

图:Emmanuel Ashun / Endeavor大家好,这是 Voice Agent 学习笔记系列的第 23 篇,我是课代表十三🧑‍💻。ElevenLabs 是一家专注于人工智能语音技术的创新公司,致力于重新定义音频体验。凭借其突破性的语音克隆和配音工具,ElevenLabs 正在重塑音频内容创作的未来,让高质量、易于访问的音频内容触手可及。CEO Mati Staniszewski 曾就职于 Palantir,拥有深厚的产品经验。

2025-03-17 20:17:19 836

原创 阿里通义实验室语音团队负责人鄢志杰离职;苹果计划在 AirPods 上配备实时对话翻译功能丨日报

DeepMind 声称,在测试中,Gemini Robotics 使机器人能够在训练数据未涵盖的环境中表现出色。该实验室已发布了一个精简版模型 Gemini Robotics-ER,研究人员可用来训练自己的机器人控制模型,

2025-03-14 17:13:15 689

原创 通义 R1-Omni 模型:通过音视频判断人物情绪;Google 开源端侧多模态模型 Gemma 3,最小 1B 参数丨日报

今晚(周四) 20:00~21:15。

2025-03-13 18:46:45 724

原创 直播预告:慢热的 MCP 终于火了;什么是 MCP,以及智能体通信协议的未来丨RTE Dev Talk

MCP(Model Context Protocol)是一种标准化协议,可将 AI 智能体连接到各种外部工具和数据源。(图:Norah Sakal)慢热的 MCP 终于火了。与此同时,开发者社区中热议的话题还包括 Manus 及其开源复现、Computer Use、Deep Research 等议题——agentic Al 的「ChatGPT」时刻愈发临近。这些 agent 技术之间都有哪些差别?应用场景都有哪些?新协议的引入会带来哪些开发流程的变化?

2025-03-12 20:29:28 863

原创 Cartesia 升级 TTS 模型,可在音频中无缝填充内容;索尼 AI 游戏角色原型:结合语音与动画,与玩家实时对话丨日报

我们欢迎更多的小伙伴参与。

2025-03-12 16:38:24 982

原创 端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

希望能给大家提供一些新的思考。同时,我们也整理了近 2 万字的完整版文字回顾,点击文末的**「阅读全文」**即可获取!关注「RTE 开发者社区」视频号,点击「直播回放」,也可以查看完整视频。期待与你在 RTE 开发者社区交流更多 Voice Agent 相关话题!enjoy~

2025-03-11 20:53:50 939

原创 Tavus 发布对话轮次控制模型:能理解对话节奏和意图;百度推出 AI 情感陪伴应用月匣,整合 MiniMax 等模型丨日报

我们欢迎更多的小伙伴参与。

2025-03-11 18:51:10 956

原创 Llama 4 即将发布,引入语音能力;AI 智能运动眼镜 BleeqUp:实时对讲、AI 自动成片等功能丨日报

我们欢迎更多的小伙伴参与。

2025-03-10 19:51:28 797

原创 YC 孵化项目 Pinch:实时语音翻译视频会议平台;Mistral OCR:能处理多语言多模态复杂文档丨日报

开发者朋友们大家好:这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@qqq,@鲍勃。

2025-03-07 17:36:00 949

原创 世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

你估计刷到过上面这个视频,两个 AI 最初用人类自然语言交流,在确认彼此身份后,立刻切换到「哔哔哔哔」这种机器专属的 GGWave 通信方式。这个爆火全网的视频,就诞生于我们今天要介绍的 ElevenLabs Hackathon。炙手可热的语音 AI 公司 ElevenLabs,凭借 30 亿美元的估值,在全球范围内掀起一股语音技术浪潮。其发起的语音 Hackathon 吸引了众多开发者踊跃参与,首届活动便汇聚了来自世界各地的数百名开发者和创造者,共同打造出超过 300 个 AI Agent。

2025-03-06 21:32:50 827

原创 直播预约丨就在明天,声网对话式 AI 引擎发布会

直播预约丨就在明天,声网对话式 AI 引擎发布会

2025-03-05 18:17:23 90

原创 Dubformer 获 360 万美元融资,情感迁移技术革新 AI 配音;全球首款宠物智能手机亮相:可定位、AI 实时通话丨日报

我们欢迎更多的小伙伴参与。

2025-03-05 17:06:09 584

原创 Gemini AI 升级视频提问和屏幕共享功能;Voice+Visual Agent Demo:语音对话与视觉互动元素结合丨日报

我们欢迎更多的小伙伴参与。

2025-03-04 18:31:02 938

原创 Appple 超级体验官招募!大声说出你的宝藏 App~

2025 年依旧是属于 AI 的时代,技术飞速迭代,创新层出不穷,而 Apple 生态继续为我们带来了无数令人惊叹的 App。它们或以卓越的用户体验脱颖而出,或凭借强大的功能助力我们的日常工作与生活,又或许凭借独特的创意与设计让人眼前一亮。为了让更多人发现这些隐藏在 Apple 生态中的宝藏 App,也为了激发更多开发者的灵感与创意,我们特别发起这场线上留言活动 —— 「Apple 生态宝藏 App 推荐活动」。回望这段时光,你是否有自己的年度 app 希望更多人看到?

2025-03-03 19:02:51 554

原创 接入语音盒子,广东成人玩偶公司走红;AI 语音访谈员 Chikka 登顶 PH 日榜:AI 语音收集反馈,即时生成洞察报告丨日报

我们欢迎更多的小伙伴参与。

2025-03-03 16:53:42 778

原创 Meta 无预警发布新一代 AI 眼镜 Aria Gen 2;腾讯混元 Turbo S 模型将长短思维链融合丨日报

我们欢迎更多的小伙伴参与。

2025-02-28 19:57:20 785

原创 活动报名:Voice Agent 技术现状及应用展望丨 3.8 北京

3 月 8 日周六下午,北京,「智谱 Z 计划&Z Fund」和「RTE 开发者社区」将合办一场 Voice Agent 主题的线下活动。多家语音模型的技术负责人,多个落地场景(AI 陪伴、智能客服、AI 硬件等)的创始人都会参与,欢迎报名!时间:3 月 8 日(周六)14:30~17:30地点:北京 ·搜狐网络大厦杨慧,RTE 开发者社区发起人,声网生态运营中心负责人贾世坤,智谱 MaaS 平台产品负责人尹顺顺,Soul AI 技术负责人。

2025-02-28 18:59:39 765

原创 今晚 8 点直播:Alexa+ 让 6 亿终端瞬间获得 AI 能力!端侧智能都有哪些开发者机会?丨 RTE Dev Talk

如果您正在开发具备语音对话、视觉识别等多模态能力的 AI Agent,或者对探索下一代人机交互方式充满热情,欢迎你预约并收看 27 日(周四)晚八点的 RTE Dev Talk!昨晚 Amazon 发布了新一代 Alexa+,6 亿台智能设备终端瞬间获得了新一代 AI 的能力。现场演示中,Alexa+ 可以根据用户的语音指令切换播放设备,让音乐、视频在不同房间流转;能与安防摄像头联动,自主调出与用户指令相关的视频片段,如「遛狗了吗」等;

2025-02-27 17:13:44 252

原创 Elevenlabs、Hume.ai、B 站多家推出 STT/TTS 新品;Amphion 开源 20 万小时语音数据集丨日报

我们欢迎更多的小伙伴参与。

2025-02-27 13:35:35 797

原创 Hugging Face 发布 Python WebRTC 库:构建实时音视频应用;微软 Magma:多模态跨数字物理世界丨日报

我们欢迎更多的小伙伴参与。

2025-02-26 20:29:07 783

原创 小红书独立开发大赛:让你的宝藏应用被更多人看到

无论你是业余在做一款 passion project 的 builder,还是试图 bootstrapping 自己造血的小团队。小红书发起的首届独立开发大赛都值得你关注。最近越来越多的社区开发者说,他们会选择在小红书冷启动自己的项目,因为这里能获取到友善的初期反馈和精准的早期用户。这些反馈和用户,都将成为一个独立应用未来成长中最坚实的土壤。RTE 开发者社区作为本次独立开发大赛的合作伙伴,也会选送一些实时互动、多模态 AI 领域的优秀作品。选送作品将有优先初审和流量扶持的机会。

2025-02-26 19:52:26 633

原创 视觉理解+实时语音,打造你的多模态实时 AI丨 TEN+亚马逊云科技开源工作坊

RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。官网:rtecommunity.dev亚马逊云科技 User Group 开发者社区是一个为开发者们提供彼此学习、分享技术实践、培训进阶等活动的技术交流分享社区。

2025-02-25 19:45:49 805

原创 Grok 3 语音功能上线,「脏话冒犯」模式引热议;Voice Agent Demo 分享:实时 AI 解说员丨日报

我们欢迎更多的小伙伴参与。

2025-02-25 18:21:21 855

原创 Product Hunt 金喵奖 Voice AI 项目一览;AI 招聘平台 Mercor 再融资,估值 20 亿美元 丨日报

我们欢迎更多的小伙伴参与。

2025-02-24 22:40:15 1055

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除