• 博客(1158)
  • 收藏
  • 关注

原创 西工大开源 VoiceSculptor:自然语言灵活设计音色;BreakReal R1:全球首款对话式 AI 调酒机丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示:个人观点,仅供参考。

2026-01-09 10:29:45 351

原创 如何用 Fun-ASR-Nano 微调一个「听懂行话」的语音模型?丨Voice Agent 学习笔记

虽然通用在大多数场景下表现不错,但有些时候,面对专业术语、特定口音或私有词汇时,难免“听错”甚至“幻听”,比如把内部产品代号识别为常见词,或在方言会议中漏掉关键信息。如果你希望模型自己的是一个高效且实用的选择。通过使用领域内标注数据微调模型(几百到几千小时不等),可以在特定场景、特定领域、特定用户群体下的,让通用的模型更好地适应具体应用需求。微调后的模型在保持通用能力的同时,在目标场景下表现更优。为了让你更轻松地定制语音识别能力,我们支持了模型微调的代码。

2026-01-09 09:38:42 285

原创 Razer 发布 Project AVA:全息数字人+游戏屏幕实时分析;Liquid AI 发布端侧端到端音频模型丨日报

这款智能积木的外观和经典 2x4 积木无异,内部却是一台微型电脑。乐高官方宣布,该产品将于 2026 年 3 月 1 日正式发售。不同于以往依赖外置电池的大型马里奥组件,智能积木采用了定制 ASIC 芯片,体积小巧且支持无线充电。智能积木的核心能力在于「感知」与「互联」。它内置了惯性传感器、光线传感器及 NFC 读取器,能够检测运动、倾斜手势,并识别周围嵌入了智能标签的新型光板或人仔。更具突破性的是,积木之间能通过蓝牙组建 Mesh 网络,相互感知位置与方向。

2026-01-08 18:50:34 610

原创 当 AAAI 遇见Voice Agent——MagicHub Meetup 2026首站·新加坡AAAI同期交流会丨活动推荐

未来晴数智慧(Magic Data)还将在国内外多地举办形式多样的线下活动,包括技术研讨、实践沙龙、行业峰会等,构建持续交流的Voice Agent生态圈。在惬意氛围中,享冷餐轻食、饮品畅饮,与行业精英自由互动、闪电分享、随机碰撞合作灵感。借助AAAI 2026国际顶级学术盛会的东风,汇聚来自世界前沿的研究者、工程师与创新团队,打造一场小而精、专而深的行业对话。围绕即将到来的语音交互革命,探讨数据如何定义体验、驱动进化,携手探索下一代Voice Agent的落地蓝图。Singapore Expo附近酒店。

2026-01-08 18:35:44 215

原创 旧金山活动丨聊聊 AI 客服和 AI Call Agent,Conversational AI Meetup@SF,1 月 12 日

语音智能体正在越来越多的行业加速落地。本期主题聚焦「AI 语音客服」——作为 Voice Agent 最早落地的应用场景之一,它如今正面临哪些真实挑战?目前已确认的嘉宾背景涵盖客服 AI、语音模型、智能体框架、实时通信、语音 AI 社交应用以及 AI Infra 等方向。旧金山的开发者与创业者们,我们的 Conversational AI Meetup 又来啦。这是一场能接触前沿技术与产品的聚会,也能交朋友的轻松聚会,披萨和饮料也管够,欢迎报名参加。期待你的加入,一同探索语音驱动的下一代人机交互界面。

2026-01-08 18:22:26 201

原创 1956-2026:人类与机器智能的七十年对话

1956年夏天,当约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Lee Minsky)等先驱在达特茅斯学院首次提出“人工智能”这个概念时,他们乐观地预言:十年内机器将具备人类级别的推理能力。七十年过去了,这个预言虽未完全实现,但AI的演进轨迹却远比当初设想的更加波澜壮阔——从符号推理的黄金时代到“AI寒冬”的沉寂,从机器学习的复兴到深度学习的爆发,再到2026年AI全面融入产业基础设施的当下。

2026-01-07 00:14:34 853

原创 云看展 CES 的最佳姿势出现了! 4177 家 CES 展商完整列表丨社区项目推荐

如果「云逛展」还不够,还可以看看 RTE 开发者社区最近上线的「Voice Agent 100 创新榜」。你也可以根据数据库打造一个自己最舒适的云看展姿势。榜单也还在持续更新中,如果你正在做 Voice Agent 或者看到有意思的 Agent,都欢迎联系我们推荐入榜!你可以通过中英文关键词查询项目,譬如搜索「Voice」,可以看到和「Voice AI+硬件」相关的项目。

2026-01-06 23:57:30 188

原创 Wispr 曝光内部项目:不仅转录文本还执行任务;苹果将推送 LLM 架构 Siri:支持屏幕感知与应用调用丨日报

我们欢迎更多的小伙伴参与。

2026-01-06 23:43:05 940

原创 Looki 获蚂蚁、美团 2000 万美元融资;Plaud 升级录音胶囊 NotePin S,从硬件扩展至会议转录软件丨日报

我们欢迎更多的小伙伴参与。

2026-01-05 21:38:07 544

原创 OpenAI 首款 AI 硬件是一支笔,并将研发全新音频模型架构;Pickle 预售四摄 AR 眼镜,可行性遭质疑丨日报

Tracup 旗下品牌「Hyper AI」推出 Audio Glasses 智能音频眼镜,采用「录音优先」的端侧 AI 策略。该设备通过集成高保真麦克风与端侧算法,实现会议、通话及日常对话的自动化转写、翻译与智能摘要生成,旨在替代传统的手动笔记流程。

2026-01-05 12:21:22 1024

原创 如何让你的语音助手有眼力见——Turn Detection 的 5 种解法丨Voice Agent 学习笔记

语义完整度,或者叫做Turn Detection,轮次检测,其实属于用户意图判定的一种,主要用来判定用户是否已经完整地表达了自己的想法。该响应的时候及时回复,不该响应的时候保持沉默。用户使用“嗯、啊”等词汇过渡,用户的不流利发音,或者用户在面对复杂问题的思考间隙过长,从语音信号能量上看,物理上用户是停止了说话,但信息并不完整,或者噪声导致识别出文字,误以为用户响应;一般是由于噪声存在,机器误以为用户正在响应,没有及时做出回应。看似一个简单的分类任务,做起来可不简单。

2026-01-01 20:01:17 1010

原创 字节版 NotebookLM 悄悄上线;乐鑫、涂鸦争相推出 AI 硬件交互方案;2025 AI 语音输入工具盘点丨日报

2025 年 AI 听写领域完成从单纯「语音转文字 (STT)」向「LLM 语义重构」的技术转型。新一代工具通过本地部署、自定义 Prompt 引导以及对 IDE 的原生支持,解决了传统听写工具在专业术语识别及上下文格式化方面的瓶颈。本地化推理与隐私工程:以「Monologue」和「VoiceTypr」为代表的工具支持全本地模型运行,通过下载模型至客户端实现离线转录,从物理层面隔离敏感数据;「Willow」则通过 LLM 语义补全能力,支持从少量关键词生成长段落文本。

2026-01-01 19:42:23 862 1

原创 路透社:2026 年将迎来智能体语音交互爆发;Traini 融资 5000 万元:解析宠物叫声与行为,实现人犬实时对话丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示:个人观点,仅供参考。

2025-12-31 08:45:21 700

原创 关于 AI 陪伴新规,应该知道的几件事丨社区来稿

这份新规是AI陪伴行业从0到1的成人礼。短期看,合规成本剧增,很多擦边球产品会死掉。但长期看,这是好事。对于企业来说,合规是必须的成本和基础。那些只能靠“软色情”和“情感操控”留住用户的产品,注定被淘汰。只有那些在合规框架下,依然能提供真正情绪价值、真心抚慰人心的产品,才是真正有生命力的。现在立刻行动起来:1. 对照新规,自查产品,考虑下有哪些功能需要调整。根据正式发布再调整。2. 在2026年1月25日前,积极向网信办提交意见,为行业争取合理的创新空间。别等了,哨声已经响了。

2025-12-31 08:17:15 776

原创 AI 不想取代播客主播,因为播客根本不赚钱|编码人声

编码人声」是由「RTE开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。别再问「AI 会不会取代播客主播」了——AI 根本懒得动你,因为你这个赛道压根不赚钱,而音频 AI 变现场景是在别处。在 RTE2025 大会开放麦现场,四位内容和 AI 从业者撕开了 AI 替代论的遮羞布:播客是数字时代的「胶片相机」,小众、低效、靠爱发电——AI 连优化动力都没有;

2025-12-30 23:51:29 800

原创 高达一亿港币人工智能创投基金,亚洲人工智能初创大赛上海站招募丨社区伙伴活动推荐

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

2025-12-30 23:35:37 185

原创 音轨分割模SAM-Audio优化版:消费级GPU运行;2025儿童AI硬件图谱:290亿市场规模与高退货率博弈丨日报

我们欢迎更多的小伙伴参与。

2025-12-27 10:41:00 988

原创 实时数字人 Lemon Slice 融资 1050 万美元,单 GPU 实现 20FPS 生成;钉钉发布 AI 防录音魔盒丨日报

我们欢迎更多的小伙伴参与。

2025-12-24 23:20:02 778

原创 CES 2026 拉斯维加斯交流晚宴 | 半个 AI 硬件圈子都来了丨社区来稿

一年一度科技盛会 CES 来了,CES 2026 AI的竞争已从模型能力,转向。AI Companion 正成为对实时性与系统协同要求最高的 AI 设备形态。共识的是AI Companion 不是功能叠加,而是。芯片、HAL、实时交互、对话式 AI、Agent 与设备形态,必须在同一架构下协同设计。而在其中真正的门槛不在模型,而在整合。

2025-12-24 23:00:54 643

原创 通义开源端到端语音模型 Fun-Audio-Chat 8B;OpenTable 与 Yelp 竞速餐饮语音 AI丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示:个人观点,仅供参考。

2025-12-24 10:00:07 681

原创 如何将「语音克隆同意验证机制」嵌入 AI 工作流丨Voice Agent 学习笔记

在这篇博客文章中,我们介绍了“语音同意验证机制 (voice consent gate)”的概念,支持通过明确同意来进行语音克隆。我们还提供了一个示例 Space 应用和相关代码,帮助大家快速上手这一想法。示例 Space 应用https://hf.co/spaces/society-ethics/RepeatAfterMe相关代码https://hf.co/spaces/society-ethics/RepeatAfterMe/tree/main近年来,逼真的语音生成技术已经达到了令人惊讶的水平。在某些情

2025-12-24 09:42:41 983

原创 ICASSP2026 类人语音对话系统(HumDial)挑战赛结果公布丨社区来稿

从简单的指令执行到具备“心智”的情感共鸣,AI 语音交互正在经历怎样的蜕变?在人工智能飞速发展的今天,我们渴望的不再仅仅是一个“有问必答”的助手,而是一个能听懂弦外之音、能接住突发话茬的“知心伙伴”。最近,ICASSP 2026 发起,旨在推动语音对话模型在“”情感感知与“”流式交互两大核心维度的技术跃迁。目前赛事已经告一段落,现正式揭晓比赛结果。

2025-12-23 12:29:54 860

原创 亚马逊推出对话式 AI 门铃,识别访客并代为应答;Vocu V3 语音模型登顶 HF TTS Arena 榜丨日报

用户可为不同类型访客设置具体指令,例如:指示快递员放置包裹的位置、提供饮水零食、处理签收事宜;礼貌拒绝推销人员;或让亲友留言。

2025-12-19 23:57:18 707

原创 Grok 发布语音 API,支持实时 X 数据搜索;腾讯发布混元实时世界模型 1.5,开放个人体验丨日报

Unicorn Blocks 是一家以 AloT 为核心产品形态的创新科技公司,致力于通过人工智能技术定义积木机器人的未来。我们的使命是「和孩子一起创造童话世界」,《玩具总动员》中的角色来到我们的世界。

2025-12-19 10:54:28 715

原创 硬件日招募!「对话式 AI+硬件」系列活动@深圳丨RTE Meetup+TEN Workshop

step1:部署自己的 server,修改 LLM、TTS 等参数来定制自己的 Voice Agentstep2:尝试接入不同的 example 来体验更多 Voice Agent 场景。

2025-12-19 10:34:41 1018

原创 Meta 发布 SAM Audio:首个统一多模态音频分离模型,准实时处理;深圳地铁试点导盲机器人丨日报

我们欢迎更多的小伙伴参与。

2025-12-18 12:55:46 666

原创 被低估的前置语音技术——为什么你的语音 AI 总「听不清」?一篇文章讲清楚 3A、VAD 和声纹识别丨社区来稿

对话式 AI 语音交互的「听清、听准、不添乱」,是由前置音频处理组成的一套「流水线作业」:1.3A 先「净化」音频:AEC 去掉回声、ANS 滤除噪声、AGC 稳定音量,输出干净的音频信号;2.VAD 再「筛选」人声:精准识别音频中「人声的开始(SOS)和结束(EOS)」,避免静音 / 噪声占用后端资源,同时把控对话节奏;3.声纹识别最后「锁定」主讲人:过滤无关人声干扰,确保系统只响应目标用户。这三步环环相扣,共同构成了语音交互的「地基」。

2025-12-17 15:33:55 837

原创 商汤SekoTalk实时数字人:25fps+3.5s延迟;Looki L1国内首发价1499元,将实时世界数据转化为上下文丨日报

我们欢迎更多的小伙伴参与。

2025-12-17 15:19:53 923

原创 CosyVoice3 和 Fun-ASR 开源轻量版;Gemini 原生音频模型升级,函数调用更准确丨日报

Zoom AI 在极其严苛的「Humanity’s Last Exam (HLE)」基准测试中,通过其「联邦 AI」方法取得了 48.1% 的 SOTA 成绩,显著优于竞争对手。这一成果是 Zoom AI Companion 从 1.0 到 3.0 演进的体现,3.0 中集成的智能体能力,将直接赋能更高效的企业协作和自动化流程。

2025-12-16 17:44:51 834

原创 INNOSpark Vol.4 开放招募:路演直通 VC,入驻智慧谷,抱走算力券丨社区伙伴活动推荐

在这个由AI浪潮主导的时代,创新需要的不仅仅是技术,更需要高能级的生态支持和精准的资本助推。我们在此正式发布邀请,寻找最具技术创新性和市场的AI硬科技项目,共同在杭州这片创新热土上,实现同频共振,生态共生。

2025-12-16 17:23:42 599

原创 Runway 发布世界模型,模拟实时环境和可交互数字人;Qwen3-Omni 升级,视频语义理解与音视频同步能力持续优化丨日报

我们欢迎更多的小伙伴参与。

2025-12-13 10:04:20 738

原创 Vibe Coding 你应该更激进:用最 SOTA 的模型,赚最高的时薪|编码人声

编码人声」是由「RTE开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。在 RTE 2025 大会现场,《编码人声》召集 3 位身处 AI 编程浪潮不同位置的嘉宾——月之暗面开发者关系负责人、Vibe Friends 社区的发起人、Rokid 开发者生态负责人——同台拆解 AI 编程的真实生产力,探讨 Vibe Coding 的真相:AI 编程不会取代程序员,但会无情淘汰「仅会编码」的执行者。

2025-12-11 09:39:41 889

原创 智谱开源 GLM-ASR 系列语音识别模型;Pebble 发布智能指环 Index 01:本地语音转录与指令执行丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示:个人观点,仅供参考。

2025-12-11 09:26:45 1272

原创 深度研究:语音 AI 的「iPhone 时刻」,一个价值 835 亿美元的机会正在到来丨社区来稿

以下文章来源于宇宙杂菜饭 ,作者康师傅写在前面:为什么我要深度研究语音AI?过去两年,作为创业者和个人投资者,我一直在思考:AI时代,普通人的价值到底在哪?答案都指向 “真实体验” 与 “真实感受”。但如何将它们有效获取并转化为产品或服务创新?2023-2024年,我回归咨询行业,与上百位来自各行各业的企业家和创业者交流,发现一个残酷现实:“网上90%的评论让人怀疑真假,问卷调研正沦为羊毛党的游戏。”消费者分不清真实反馈,创业者面对调研结果雾里看花。这种信任危机正在摧毁整个在线评价与用户调研体系。语音,才是

2025-12-10 09:56:20 932

原创 活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!

*全球开发者先锋大会 (Global Developer Pioneers Summit) **源自于世界人工智能大会(WAIC),作为 WAIC 聚焦科技和人才力量的重要板块,特别关注青年科学家与青年开发者的成长,搭建与政策制定者深入对话的桥梁,促进科研与政策的双向互动,已成为全球开发者领域的顶尖盛会与技术风向标。2025 全球开发者先锋大会暨国际具身智能技能大赛将于 2025 年 12 月 12 日至 14 日在上海浦东举办。大会由传统大会升级为具身智能产业嘉年华,由「一个引擎、四大场景」构成。

2025-12-09 11:57:55 708

原创 Qwen3-TTS 升级,多音色、多语种和多方言;KaniTTS:开源实时语音小模型,消费级 GPU 运行丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考​。

2025-12-09 11:34:50 642

原创 球星 C 罗投资 AI 初创 Perplexity;微软开源 VibeVoice-Realtime,低延迟流式输出丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考​。

2025-12-05 23:14:09 906

原创 构建拥有记忆的端到端实时语音助手:TEN Framework + memU 教程丨社区来稿

实时语音模型让我们可以轻松构建能即时响应的语音助手Agent。但如果想让一个语音助手真的有“用”,仅仅能听和说还不够——它必须。在本教程中,你将使用构建一个具备与的智能Agent,它可以记住和你发生的一切对话内容。基于本教程的实时语音 + 记忆 Pipeline,你可以将 Agent 扩展为:AI 伙伴 / 情感陪伴 Agent语言学习或口语练习 Tutor客服 / 销售语音 AgentVTuber / 虚拟角色互动 Agent外呼语音 Agent… …

2025-12-05 22:47:55 702

原创 Meta 挖角苹果设计师,重塑 AI 硬件交互;健康追踪应用 Healthify 升级 AI 助手:实时语音与摄像头交互丨日报

我们欢迎更多的小伙伴参与。

2025-12-05 20:17:54 661

原创 Kyutai团队创立新语音AI公司Gradium,融资7000万美元;AWS端到端语音模型升级:多语言切换跨模态交互丨日报

我们欢迎更多的小伙伴参与。

2025-12-04 20:37:05 810

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除