RTE开发者社区-优快云博客

原创西工大开源 VoiceSculptor：自然语言灵活设计音色；BreakReal R1：全球首款对话式 AI 调酒机丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。作者提示：个人观点，仅供参考。

2026-01-09 10:29:45 351

原创如何用 Fun-ASR-Nano 微调一个「听懂行话」的语音模型？丨Voice Agent 学习笔记

虽然通用在大多数场景下表现不错，但有些时候，面对专业术语、特定口音或私有词汇时，难免“听错”甚至“幻听”，比如把内部产品代号识别为常见词，或在方言会议中漏掉关键信息。如果你希望模型自己的是一个高效且实用的选择。通过使用领域内标注数据微调模型（几百到几千小时不等），可以在特定场景、特定领域、特定用户群体下的，让通用的模型更好地适应具体应用需求。微调后的模型在保持通用能力的同时，在目标场景下表现更优。为了让你更轻松地定制语音识别能力，我们支持了模型微调的代码。

2026-01-09 09:38:42 285

原创 Razer 发布 Project AVA：全息数字人+游戏屏幕实时分析；Liquid AI 发布端侧端到端音频模型丨日报

这款智能积木的外观和经典 2x4 积木无异，内部却是一台微型电脑。乐高官方宣布，该产品将于 2026 年 3 月 1 日正式发售。不同于以往依赖外置电池的大型马里奥组件，智能积木采用了定制 ASIC 芯片，体积小巧且支持无线充电。智能积木的核心能力在于「感知」与「互联」。它内置了惯性传感器、光线传感器及 NFC 读取器，能够检测运动、倾斜手势，并识别周围嵌入了智能标签的新型光板或人仔。更具突破性的是，积木之间能通过蓝牙组建 Mesh 网络，相互感知位置与方向。

2026-01-08 18:50:34 610

原创当 AAAI 遇见Voice Agent——MagicHub Meetup 2026首站·新加坡AAAI同期交流会丨活动推荐

未来晴数智慧（Magic Data）还将在国内外多地举办形式多样的线下活动，包括技术研讨、实践沙龙、行业峰会等，构建持续交流的Voice Agent生态圈。在惬意氛围中，享冷餐轻食、饮品畅饮，与行业精英自由互动、闪电分享、随机碰撞合作灵感。借助AAAI 2026国际顶级学术盛会的东风，汇聚来自世界前沿的研究者、工程师与创新团队，打造一场小而精、专而深的行业对话。围绕即将到来的语音交互革命，探讨数据如何定义体验、驱动进化，携手探索下一代Voice Agent的落地蓝图。Singapore Expo附近酒店。

2026-01-08 18:35:44 215

原创旧金山活动丨聊聊 AI 客服和 AI Call Agent，Conversational AI Meetup@SF，1 月 12 日

语音智能体正在越来越多的行业加速落地。本期主题聚焦「AI 语音客服」——作为 Voice Agent 最早落地的应用场景之一，它如今正面临哪些真实挑战？目前已确认的嘉宾背景涵盖客服 AI、语音模型、智能体框架、实时通信、语音 AI 社交应用以及 AI Infra 等方向。旧金山的开发者与创业者们，我们的 Conversational AI Meetup 又来啦。这是一场能接触前沿技术与产品的聚会，也能交朋友的轻松聚会，披萨和饮料也管够，欢迎报名参加。期待你的加入，一同探索语音驱动的下一代人机交互界面。

2026-01-08 18:22:26 201

原创 1956-2026：人类与机器智能的七十年对话

1956年夏天，当约翰·麦卡锡（John McCarthy）、马文·明斯基（Marvin Lee Minsky）等先驱在达特茅斯学院首次提出“人工智能”这个概念时，他们乐观地预言：十年内机器将具备人类级别的推理能力。七十年过去了，这个预言虽未完全实现，但AI的演进轨迹却远比当初设想的更加波澜壮阔——从符号推理的黄金时代到“AI寒冬”的沉寂，从机器学习的复兴到深度学习的爆发，再到2026年AI全面融入产业基础设施的当下。

2026-01-07 00:14:34 853

原创云看展 CES 的最佳姿势出现了！ 4177 家 CES 展商完整列表丨社区项目推荐

如果「云逛展」还不够，还可以看看 RTE 开发者社区最近上线的「Voice Agent 100 创新榜」。你也可以根据数据库打造一个自己最舒适的云看展姿势。榜单也还在持续更新中，如果你正在做 Voice Agent 或者看到有意思的 Agent，都欢迎联系我们推荐入榜！你可以通过中英文关键词查询项目，譬如搜索「Voice」，可以看到和「Voice AI+硬件」相关的项目。

2026-01-06 23:57:30 188

原创 Wispr 曝光内部项目：不仅转录文本还执行任务；苹果将推送 LLM 架构 Siri：支持屏幕感知与应用调用丨日报

我们欢迎更多的小伙伴参与。

2026-01-06 23:43:05 940

原创 Looki 获蚂蚁、美团 2000 万美元融资；Plaud 升级录音胶囊 NotePin S，从硬件扩展至会议转录软件丨日报

我们欢迎更多的小伙伴参与。

2026-01-05 21:38:07 544

原创 OpenAI 首款 AI 硬件是一支笔，并将研发全新音频模型架构；Pickle 预售四摄 AR 眼镜，可行性遭质疑丨日报

Tracup 旗下品牌「Hyper AI」推出 Audio Glasses 智能音频眼镜，采用「录音优先」的端侧 AI 策略。该设备通过集成高保真麦克风与端侧算法，实现会议、通话及日常对话的自动化转写、翻译与智能摘要生成，旨在替代传统的手动笔记流程。

2026-01-05 12:21:22 1024

原创如何让你的语音助手有眼力见——Turn Detection 的 5 种解法丨Voice Agent 学习笔记

语义完整度，或者叫做Turn Detection，轮次检测，其实属于用户意图判定的一种，主要用来判定用户是否已经完整地表达了自己的想法。该响应的时候及时回复，不该响应的时候保持沉默。用户使用“嗯、啊”等词汇过渡，用户的不流利发音，或者用户在面对复杂问题的思考间隙过长，从语音信号能量上看，物理上用户是停止了说话，但信息并不完整，或者噪声导致识别出文字，误以为用户响应；一般是由于噪声存在，机器误以为用户正在响应，没有及时做出回应。看似一个简单的分类任务，做起来可不简单。

2026-01-01 20:01:17 1010

原创字节版 NotebookLM 悄悄上线；乐鑫、涂鸦争相推出 AI 硬件交互方案；2025 AI 语音输入工具盘点丨日报

2025 年 AI 听写领域完成从单纯「语音转文字（STT）」向「LLM 语义重构」的技术转型。新一代工具通过本地部署、自定义 Prompt 引导以及对 IDE 的原生支持，解决了传统听写工具在专业术语识别及上下文格式化方面的瓶颈。本地化推理与隐私工程：以「Monologue」和「VoiceTypr」为代表的工具支持全本地模型运行，通过下载模型至客户端实现离线转录，从物理层面隔离敏感数据；「Willow」则通过 LLM 语义补全能力，支持从少量关键词生成长段落文本。

2026-01-01 19:42:23 862 1

原创路透社：2026 年将迎来智能体语音交互爆发；Traini 融资 5000 万元：解析宠物叫声与行为，实现人犬实时对话丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。作者提示：个人观点，仅供参考。

2025-12-31 08:45:21 700

原创关于 AI 陪伴新规，应该知道的几件事丨社区来稿

这份新规是AI陪伴行业从0到1的成人礼。短期看，合规成本剧增，很多擦边球产品会死掉。但长期看，这是好事。对于企业来说，合规是必须的成本和基础。那些只能靠“软色情”和“情感操控”留住用户的产品，注定被淘汰。只有那些在合规框架下，依然能提供真正情绪价值、真心抚慰人心的产品，才是真正有生命力的。现在立刻行动起来：1. 对照新规，自查产品，考虑下有哪些功能需要调整。根据正式发布再调整。2. 在2026年1月25日前，积极向网信办提交意见，为行业争取合理的创新空间。别等了，哨声已经响了。

2025-12-31 08:17:15 776

原创 AI 不想取代播客主播，因为播客根本不赚钱｜编码人声

编码人声」是由「RTE开发者社区」策划的一档播客节目，关注行业发展变革、开发者职涯发展、技术突破以及创业创新，由开发者来分享开发者眼中的工作与生活。别再问「AI 会不会取代播客主播」了——AI 根本懒得动你，因为你这个赛道压根不赚钱，而音频 AI 变现场景是在别处。在 RTE2025 大会开放麦现场，四位内容和 AI 从业者撕开了 AI 替代论的遮羞布：播客是数字时代的「胶片相机」，小众、低效、靠爱发电——AI 连优化动力都没有；

2025-12-30 23:51:29 800

原创高达一亿港币人工智能创投基金，亚洲人工智能初创大赛上海站招募丨社区伙伴活动推荐

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

2025-12-30 23:35:37 185

原创音轨分割模SAM-Audio优化版：消费级GPU运行；2025儿童AI硬件图谱：290亿市场规模与高退货率博弈丨日报

我们欢迎更多的小伙伴参与。

2025-12-27 10:41:00 988

原创实时数字人 Lemon Slice 融资 1050 万美元，单 GPU 实现 20FPS 生成；钉钉发布 AI 防录音魔盒丨日报

我们欢迎更多的小伙伴参与。

2025-12-24 23:20:02 778

原创 CES 2026 拉斯维加斯交流晚宴 | 半个 AI 硬件圈子都来了丨社区来稿

一年一度科技盛会 CES 来了，CES 2026 AI的竞争已从模型能力，转向。AI Companion 正成为对实时性与系统协同要求最高的 AI 设备形态。共识的是AI Companion 不是功能叠加，而是。芯片、HAL、实时交互、对话式 AI、Agent 与设备形态，必须在同一架构下协同设计。而在其中真正的门槛不在模型，而在整合。

2025-12-24 23:00:54 643

原创通义开源端到端语音模型 Fun-Audio-Chat 8B；OpenTable 与 Yelp 竞速餐饮语音 AI丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。作者提示：个人观点，仅供参考。

2025-12-24 10:00:07 681

原创如何将「语音克隆同意验证机制」嵌入 AI 工作流丨Voice Agent 学习笔记

在这篇博客文章中，我们介绍了“语音同意验证机制 (voice consent gate)”的概念，支持通过明确同意来进行语音克隆。我们还提供了一个示例 Space 应用和相关代码，帮助大家快速上手这一想法。示例 Space 应用https://hf.co/spaces/society-ethics/RepeatAfterMe相关代码https://hf.co/spaces/society-ethics/RepeatAfterMe/tree/main近年来，逼真的语音生成技术已经达到了令人惊讶的水平。在某些情

2025-12-24 09:42:41 983

原创 ICASSP2026 类人语音对话系统（HumDial）挑战赛结果公布丨社区来稿

从简单的指令执行到具备“心智”的情感共鸣，AI 语音交互正在经历怎样的蜕变？在人工智能飞速发展的今天，我们渴望的不再仅仅是一个“有问必答”的助手，而是一个能听懂弦外之音、能接住突发话茬的“知心伙伴”。最近，ICASSP 2026 发起，旨在推动语音对话模型在“”情感感知与“”流式交互两大核心维度的技术跃迁。目前赛事已经告一段落，现正式揭晓比赛结果。

2025-12-23 12:29:54 860

原创亚马逊推出对话式 AI 门铃，识别访客并代为应答；Vocu V3 语音模型登顶 HF TTS Arena 榜丨日报

用户可为不同类型访客设置具体指令，例如：指示快递员放置包裹的位置、提供饮水零食、处理签收事宜；礼貌拒绝推销人员；或让亲友留言。

2025-12-19 23:57:18 707

原创 Grok 发布语音 API，支持实时 X 数据搜索；腾讯发布混元实时世界模型 1.5，开放个人体验丨日报

Unicorn Blocks 是一家以 AloT 为核心产品形态的创新科技公司，致力于通过人工智能技术定义积木机器人的未来。我们的使命是「和孩子一起创造童话世界」，《玩具总动员》中的角色来到我们的世界。

2025-12-19 10:54:28 715

原创硬件日招募！「对话式 AI+硬件」系列活动@深圳丨RTE Meetup+TEN Workshop

step1：部署自己的 server，修改 LLM、TTS 等参数来定制自己的 Voice Agentstep2：尝试接入不同的 example 来体验更多 Voice Agent 场景。

2025-12-19 10:34:41 1018

原创 Meta 发布 SAM Audio：首个统一多模态音频分离模型，准实时处理；深圳地铁试点导盲机器人丨日报

我们欢迎更多的小伙伴参与。

2025-12-18 12:55:46 666

原创被低估的前置语音技术——为什么你的语音 AI 总「听不清」？一篇文章讲清楚 3A、VAD 和声纹识别丨社区来稿

对话式 AI 语音交互的「听清、听准、不添乱」，是由前置音频处理组成的一套「流水线作业」：1.3A 先「净化」音频：AEC 去掉回声、ANS 滤除噪声、AGC 稳定音量，输出干净的音频信号；2.VAD 再「筛选」人声：精准识别音频中「人声的开始（SOS）和结束（EOS）」，避免静音 / 噪声占用后端资源，同时把控对话节奏；3.声纹识别最后「锁定」主讲人：过滤无关人声干扰，确保系统只响应目标用户。这三步环环相扣，共同构成了语音交互的「地基」。

2025-12-17 15:33:55 837

原创商汤SekoTalk实时数字人：25fps+3.5s延迟；Looki L1国内首发价1499元，将实时世界数据转化为上下文丨日报

我们欢迎更多的小伙伴参与。

2025-12-17 15:19:53 923

原创 CosyVoice3 和 Fun-ASR 开源轻量版；Gemini 原生音频模型升级，函数调用更准确丨日报

Zoom AI 在极其严苛的「Humanity’s Last Exam (HLE)」基准测试中，通过其「联邦 AI」方法取得了 48.1% 的 SOTA 成绩，显著优于竞争对手。这一成果是 Zoom AI Companion 从 1.0 到 3.0 演进的体现，3.0 中集成的智能体能力，将直接赋能更高效的企业协作和自动化流程。

2025-12-16 17:44:51 834

原创 INNOSpark Vol.4 开放招募：路演直通 VC，入驻智慧谷，抱走算力券丨社区伙伴活动推荐

在这个由AI浪潮主导的时代，创新需要的不仅仅是技术，更需要高能级的生态支持和精准的资本助推。我们在此正式发布邀请，寻找最具技术创新性和市场的AI硬科技项目，共同在杭州这片创新热土上，实现同频共振，生态共生。

2025-12-16 17:23:42 599

原创 Runway 发布世界模型，模拟实时环境和可交互数字人；Qwen3-Omni 升级，视频语义理解与音视频同步能力持续优化丨日报

我们欢迎更多的小伙伴参与。

2025-12-13 10:04:20 738

原创 Vibe Coding 你应该更激进：用最 SOTA 的模型，赚最高的时薪｜编码人声

编码人声」是由「RTE开发者社区」策划的一档播客节目，关注行业发展变革、开发者职涯发展、技术突破以及创业创新，由开发者来分享开发者眼中的工作与生活。在 RTE 2025 大会现场，《编码人声》召集 3 位身处 AI 编程浪潮不同位置的嘉宾——月之暗面开发者关系负责人、Vibe Friends 社区的发起人、Rokid 开发者生态负责人——同台拆解 AI 编程的真实生产力，探讨 Vibe Coding 的真相：AI 编程不会取代程序员，但会无情淘汰「仅会编码」的执行者。

2025-12-11 09:39:41 889

原创智谱开源 GLM-ASR 系列语音识别模型；Pebble 发布智能指环 Index 01：本地语音转录与指令执行丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。作者提示：个人观点，仅供参考。

2025-12-11 09:26:45 1272

原创深度研究：语音 AI 的「iPhone 时刻」，一个价值 835 亿美元的机会正在到来丨社区来稿

以下文章来源于宇宙杂菜饭，作者康师傅写在前面：为什么我要深度研究语音AI？过去两年，作为创业者和个人投资者，我一直在思考：AI时代，普通人的价值到底在哪？答案都指向 “真实体验” 与 “真实感受”。但如何将它们有效获取并转化为产品或服务创新？2023-2024年，我回归咨询行业，与上百位来自各行各业的企业家和创业者交流，发现一个残酷现实：“网上90%的评论让人怀疑真假，问卷调研正沦为羊毛党的游戏。”消费者分不清真实反馈，创业者面对调研结果雾里看花。这种信任危机正在摧毁整个在线评价与用户调研体系。语音，才是

2025-12-10 09:56:20 932

原创活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩！上海 GDPS 2025 见！

*全球开发者先锋大会（Global Developer Pioneers Summit） **源自于世界人工智能大会（WAIC），作为 WAIC 聚焦科技和人才力量的重要板块，特别关注青年科学家与青年开发者的成长，搭建与政策制定者深入对话的桥梁，促进科研与政策的双向互动，已成为全球开发者领域的顶尖盛会与技术风向标。2025 全球开发者先锋大会暨国际具身智能技能大赛将于 2025 年 12 月 12 日至 14 日在上海浦东举办。大会由传统大会升级为具身智能产业嘉年华，由「一个引擎、四大场景」构成。

2025-12-09 11:57:55 708

空空如也

空空如也