对话式 AI workshop:Voice Agent 全球五城开发实录

过去几个月,TEN Framework 团队与 Agora 和声网围绕 “对话式AI”题,踏上了横跨全球五大城市的精彩旅程——东京、旧金山、巴黎、北京、京都。 五场精心筹备的Workshop 场场爆满, 汇聚了来自当地及全球的开发者、创业者、产品经理与语音技术爱好者。得益于 RTE 开发者社区与全球多地 AI 社区的鼎力支持,我们得以深入探讨 Voice Agent 的前沿趋势、真实应用场景与落地开发实践。

每一站,都上演着不同的故事,碰撞出独特的火花。 现在,就让我们一起回顾这趟旅程的精彩瞬间!

东京站|Avatar实时交互,引爆现场兴奋点

四月,东京,旅程启航。 首场Workshop聚焦于Avatar驱动的实时交互体验。

🤩 核心印象: Avatar + 实时交互 = 未来感十足!

🎤 重量级分享: Microsoft 深入解析 GPT-4o Realtime API 的语音对话落地;TEN Framework 揭秘开源语音代理框架的最佳实践;声网和 Agora 展示对话式方案的卓越效果与客户案例;Dify 社区大使 Alec Lee 则带来结合 TEN 和 Dify 构建语音交互数字人的创新方案。现场讨论热烈,焦点集中在部署细节、延迟优化及Demo的惊艳效果。

💻 实战演练: 参与者亲自动手,在本地部署 TEN Agent,并通过 Playground 接入 Azure OpenAI 语音服务,亲手搭建出可实时对话的 Voice Agent。 从原理到实操,体验全链路打通。现场还有 Felo(AI翻译)、MeltingHack & TUM.ai(AI社群)、UniConvo(Chatbot)、EMQ(MQTT通信)等伙伴交流互动,气氛火热。在这里插入图片描述
在这里插入图片描述

旧金山站|VAD & 轮次检测首秀,开发者聚焦语音体验“魔鬼细节”

五月,微软大厦,旧金山站。 这里聚集了来自 Oracle、Google、字节跳动等大厂,以及AI教育、企业效率、医疗等领域的创业者和高校学生,背景极其多元。

🤩核心印象: 技术控的盛宴,VAD & 轮次检测解决关键痛点!

🎤技术深度解析: Microsoft、TEN 与声网和 Agora 持续输出干货。TEN 团队首次开源 VAD(语音活动检测)与 Turn Detection(轮次检测)模块成为焦点! 该组件能精准判断语音起止和对话轮次,显著提升实时对话的流畅度与自然度。 现场提问不断,低延时、模型选择、成本与应用落地是开发者最关心的话题。

💻实战反馈: 动手环节体验 TEN Agent + Azure 实时语音交互。甚至有去年就使用过 TEN 的老用户惊喜反馈:部署和编排体验进步巨大!

在这里插入图片描述
在这里插入图片描述

巴黎站|深聊语音 AI 爆发点,探讨 Voice Agent 落地路径

五月,巴黎,Vivatech大会同期活动。 我们采用 “Keynote + 圆桌” 的形式,吸引了众多活跃于欧洲语音技术领域的创业公司和开发者,包括欧洲知名 Voice AI 社区 Voice AI Space。

🤩 核心印象: C端应用探索活跃,欧洲视角碰撞新火花!

🎤 趋势与落地碰撞: TEN、声网、Agora、Microsoft 带来主题演讲。圆桌讨论“Voice Agent in Action” 更是干货满满,嘉宾们与特邀的欧洲本地伙伴——ASR 服务商 Gladia 和数字人服务商 Trulience——深入探讨语音 Agent 的真实场景落地。 话题覆盖热门应用场景、社区反馈、核心挑战与未来突破。

🍷 巴黎Mingle 时刻: 晚间的 Demo 展示与自由交流环节,在葡萄酒与轻食的伴随下,技术讨论也染上了浓浓的巴黎风情。

在这里插入图片描述
在这里插入图片描述

北京站|从 TTS 到产品,语音 Agent 的全链路探讨

六月,北京,极客公园 AGI Playground。 我们特别设置了两场Workshop:上半场看趋势,下半场动手干。

🤩 核心印象: 技术走向纵深,落地需求旺盛,开发者上手更快!

🎤 前沿洞察: RTE 开发者社区重磅启动《对话式AI白皮书》共建计划;TEN 分享框架设计理念与核心能力;MiniMax 架构师冯雯详解其 Speech 模型在低延迟语音合成与音色定制上的优势;FoloToy 联合创始人郭兴华则从儿童陪伴产品切入,分享“把技术藏起来”的落地心得。

📱 Lightning Demo: 现场观众即兴展示 AI 儿童教育 Metabooks 和旅行助手项目,展现语音AI在生活场景的渗透。

深度实战: TEN 团队与阶跃星辰协作,带领参与者完成本地 Voice Agent 的部署与定制开发(模型接入、界面设置、交互逻辑)。经过大半年迭代,现场开发者的“跑通率”显著提升,一小时即可完成搭建!

在这里插入图片描述
在这里插入图片描述

京都站|扎根本土:ASR、大模型与会议实时翻译

7月,京都,日本创业大会 IVS 现场。 氛围开放轻松,聚焦日本本土化需求。

🤩 核心印象: 本土化应用开花结果,实时翻译场景亮眼!

🎤本地化视角: 除了TEN、声网和 Agora 的分享,特邀日本本土ASR技术专家 Paraparas 团队带来“以人为中心的信息转化平台”理念,提供极具本地特色的思考。

📱Lightning Demo: 7个 AI 项目轮番登场! FoloToy(AI 语音玩具)、Mosumosu(二次元助手)、Uniconvo(多场景语音 AI bot)、Flowith、MyShell(Agent 平台)、Pasoo(客服实时翻译 Agent)等,现场演示日语店家与英文顾客的无缝沟通,惊艳全场。 在披萨的香气中,大家自由体验 demo,畅谈合作可能。

在这里插入图片描述
在这里插入图片描述

🔜 WHAT’S NEXT?下一站?

从东京启航,经旧金山、巴黎、北京,抵达京都——TEN 团队携手全球伙伴,跨越五座城市,与超过 300 位 Voice AI 领域的探索者面对面交流。

我们不仅分享了对话式 AI 的最新进展,更深刻感受到不同地区对 Voice Agent 的独特关注:

  • 日本: 企业级需求旺盛,电话客服与商业场景是核心。

  • 欧洲: C端产品创新活跃,创业者热情高涨。

  • 旧金山: 开发者生态成熟,对底层框架、性能优化(如VAD、延迟)细节孜孜以求。

尽管对许多朋友而言,这是与 TEN Framework 的初次邂逅,但大家对其架构设计、技术能力及现场体验给予了积极反馈和宝贵建议。 我们由衷感谢每一位参与者的热情与支持!

Voice Agent 的旅程远未结束。 TEN 团队将继续深耕这一领域,期待与更多伙伴携手,共同探索对话式 AI 的无限可能!

欢迎给我们一个🌟 https://github.com/TEN-framework/ten-framework

在这里插入图片描述

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值