开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、苹果正在构建一种「答案引擎」,打造类似 ChatGPT 的全新搜索体验
据彭博社最新消息,苹果在今年早些时候成立了一个名为「答案、知识和信息」的团队,简称「AKI」(Answers、Knowledge and Information),目标就是打造一种类似 ChatGPT 的全新搜索体验。
报道称,该团队正在构建一种「答案引擎」,能够爬取网络数据来回答常识性问题,目前还处于研发的早期阶段。「答案引擎」不仅会有一个独立的 app,还会作为基础技术,为未来的 Siri、Spotlight 聚焦搜索以及 Safari 浏览器提供搜索的功能。
据悉,这个团队由「AI Siri」的前负责人高级总监 Robby Walker 领导,向 AI 主管 John Giannandrea 汇报工作。
而苹果也已经开始了针对该团队的招聘活动,提到了搜索算法和搜索引擎方面的经验需求,信息中还提到了 Siri、Spotlight、Safari 产品。
随着 Google 反垄断案的持续进行,苹果很可能将被迫终止与 Google 搜索的多年合作,这会导致其失去 200 亿一年的授权费。而苹果自己的 Apple 智能进度缓慢,AI Siri 持续跳票,因此需要一些新的更有吸引力的 AI 功能。
虽然此前苹果内部对聊天机器人之类的 AI 应用持有保留态度,但在今年已经发生了 180 度转弯。苹果服务高管 Eddy Cue 甚至公开表示,基于人工智能的搜索是未来的发展方向,并证实了苹果正在探索和 AI 搜索公司 Perplexity 等团队的合作关系。
值得一提的是,在近期的财报电话会议上,CEO 库克曾强调了苹果对 AI 技术的重视,也明确表达了收购 AI 公司的开放态度。此前有不少消息称,苹果内部已经讨论过收购 Perplexity 的合理性,也约见过其领导团队。(@APPSO)
2、Quora 推出 Poe API,涵盖文本、图像、视频和语音等模型接口
Quora 的 AI 平台 Poe 正式发布了面向开发者的 API。该 API 旨在为开发者提供一个统一的、与 OpenAI 兼容的聊天完成接口,从而能够访问 Poe 平台上超过 100 种来自不同提供商的 AI 模型,涵盖文本、图像、视频和语音等多种模态。
通过 Poe API,开发者可以利用其现有的 Poe 订阅点数来驱动第三方应用,如 Cursor、Cline 等,并能在 Claude、Gemini、o3、Imagen 4、Veo 3、Runway Gen 4 Turbo 等众多前沿模型和数百万个用户创建的机器人之间轻松切换,而无需更改工作流程或管理多个账单。
如果订阅点数不足,开发者还可以购买附加点数,以满足其应用的需求。Poe 表示,这些附加点数的定价旨在与底层模型提供商的收费保持一致。购买的点数可用于 Poe 平台上的任何模型或机器人,并且在 API 和 Poe 的 Web 及客户端应用中通用。
Poe API 现已对所有订阅用户开放。
相关链接:
https://poe.com/zh/blog/introducing-the-poe-api(@橘鸭 Juya)
3、Black Forest Labs 和 Krea 一起开源了一个新的图像模型 FLUX.1-Krea [dev]
Black Forest Labs 和 Krea 一起开源了一个新的图像模型 FLUX.1-Krea [dev],专注于打造具有独特美感的图像。没有「AI 效果」,没有过曝的高光,只有自然的细节。且该模型可兼容 FLUX 开源模型生态系统。
作为一个预训练的基础模型,flux-dev-raw 的图像质量远不及最先进的基础模型。然而,它作为后续训练的基础有三个重要原因:
-
flux-dev-raw 包含大量的世界知识——它已经了解常见的物体、动物、人、摄影角度、媒介等。
-
flux-dev-raw 虽然是一个原始模型,但已经提供了令人信服的质量:它可以生成连贯的结构、基本的构图,并能渲染文本。
-
flux-dev-raw 不是「烘焙」过的——它是一个未受污染的模型,没有「AI 美学」。它能够生成非常多样化的图像,范围从原始到美丽。
由于 flux-dev-raw 是一个指导蒸馏模型,他们设计了一个自定义损失函数,直接在无分类器引导(CFG)分布上微调模型。经过 SFT 阶段后,模型的图像质量输出显著提升。然而,还需要进一步工作使模型更加稳健,并达到期望的美学效果。这就是 RLHF 发挥作用的地方。
相关链接:
https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev (@歸藏的 AI 工具箱)
4、小米开源声音理解大模型 MiDashengLM-7B
官方 demo:
8 月 4 日,小米发布和全量开源了 MiDashengLM-7B 模型。MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解,声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩(SOTA),单样本推理的首 Token 延迟(TTFT)仅为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。
MiDashengLM 的训练数据由 100% 的公开数据构成,模型以宽松的 Apache License 2.0 发布,同时支持学术和商业应用,并欢迎来自开源社区的代码合并请求。
MiDashengLM 在音频描述、声音理解、音频问答任务中具备显著优势,同时具备可用的语音识别能力。
Xiaomi Dasheng 音频编码器是 MiDashengLM 的强大音频理解能力的重要来源。在用于评估编码器通用能力的 X-ARES Benchmark(https://arxiv.org/abs/2505.16369)上,Xiaomi Dasheng 在多项关键任务上,尤其是非语音类理解任务上显著优于作为 Qwen2.5-Omni、Kimi-Audio 等模型音频编码器的 Whisper。
Xiaomi Dasheng 不仅在用于声音理解任务上的声音表征上体现压倒性优势,它还可以用于音频生成任务,如语音降噪、提取和增强。
MiDashengLM 的训练和推理效率是它的另一项重大优势。对于单个样本推理的情形,即 batch size 为 1 时,MiDashengLM 的首个 token 预测时间(TTFT)仅为 Qwen2.5-Omni-7B 的 1/4。
MiDashengLM 采用创新的通用音频描述对齐范式,避免了用 ASR 转录数据对齐仅关注语音内容而丢弃环境声音和音乐信息,且无法捕捉说话人情感、空间混响等关键声学特征的局限,通用描述对齐策略通过非单调的全局语义映射,迫使模型学习音频场景的深层语义关联。
MiDashengLM 训练数据 100% 来自公开数据集,涵盖五大类 110 万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。数据分布经过精心设计,在预训练阶段 90% 采样来自 ASR 数据集但使用描述文本代替 ASR 转录文本,剩余 10% 分配给声音、音乐等专业任务,并同样使用 ACAVCaps 流程生成的描述文本代替原始标签。
GitHub 链接:
https://github.com/xiaomi-research/dasheng-lm
网页 Demo:
https://xiaomi-research.github.io/dasheng-lm (@小米技术)
02 有亮点的产品
1、初创公司 Brilliant Labs 推出 Halo 智能眼镜:能帮你认人记事,299 美元
据外媒 The Verge 1 日报道,Brilliant Labs 最新推出了一款名为 Halo 的智能眼镜,售价 299 美元(约合 2154 元人民币),主打与 AI 智能体 Noa 的自然交互。这款眼镜不仅能「听」声音、「看」环境,还能实时提供相关信息,帮助用户记忆人名、谈话内容等。
Halo 配备一块 0.2 英寸彩色 microOLED 屏幕,采用侧视显示和骨传导扬声器,兼顾隐私与便携,整机重量仅 40 多克,续航最长可达 14 小时。
Brilliant Labs 表示,Noa 能根据用户所处环境提供更贴切的信息,让对话「如同与真人交流般自然」。用户还能通过语音命令让眼镜静音或进入休眠模式,AI 控制能力进一步增强。
针对记忆力和视力逐渐减退的用户,Halo 还搭载了 Brilliant Labs 正在申请专利的「智能体记忆系统」 Narrative。该系统通过摄像头、麦克风与日常互动记录数据,为用户建立一个专属的知识库 —— 能在再次交谈时提示对方姓名,甚至回忆过往谈话内容。
此外,Halo 还试验性加入了名为 Vibe Mode 的新功能,用户只需用自然语言下达指令,就能创建专属应用。Brilliant Labs 举例说,你可以根据自己的导航习惯生成一款定制地图工具,无需在应用商店反复试用筛选,想要什么功能直接生成即可。
相关报道:
https://www.ithome.com/0/872/577.htm (@IT 之家、@新智讯)
2、B 站 App 海外上线自研「AI 原声翻译功能」:提供画面 / 音频两大翻译能力
近日,在今年的世界人工智能大会上,B 站公布了其为服务海外用户而全新自研的「AI 原声翻译功能」,以便海外用户更好体验游戏、科技、二次元等主推内容。
在完成了 APP 合并、海外用户页面多语种适配、特别是视频原声翻译功能上线后,B 站似乎已经做好准备蓄力开拓海外市场。
本次发布的「AI 原声翻译」功能——除了自动擦除中文字幕改为英文、弹幕翻译及各类按钮英文适配等基础的文本互译之外,还能完美还原 UP 主的声线、音色、气口,而非传统的机器音翻译,同时还能基于翻译语言进行口型模拟。
这意味着在未来中文用户观看外语 UP 主视频或海外用户观看中文 UP 主视频时能无差别体验原汁原味的「本地化」翻译视频。后续,B 站还将视需求把日语等语言加入「AI 原声翻译」功能中,持续扩展在海外市场的适配能力。
据悉,目前 B 站「AI 原声翻译功能」中,跨语言声音还原技术源自内部代号为「 IndexTTS2」的语音生成模型。该模型引入了一种新颖、通用且兼容自回归架构的语音时长及情感控制方法。
该方法支持指定 token 数量,从而实现对语音时长的精确调控,降低了翻译任务的难度。另外对情感表达与说话人身份进行了有效解耦,实现了高质量地复刻原片语音中蕴含的情感。
同时,引入 Deep Research 深度挖掘技术,专攻专有名词与流行梗点的翻译难点,确保最终译文准确、地道、传神。字幕擦除部分则结合了先进的多模态大模型 OCR 技术和基于 STTN 网络的视频重绘技术,实现字幕区域的精准检测与与高还原度擦除。(@CQ 智播汇)
3、AI agents 贷款服务公司 Salient 融资 6000 万美元,专为消费贷款打造语音 AI agent
AI agents 贷款服务公司 Salient 刚刚在 A 轮融资中筹集了 6000 万美元,折合人民币 4.3 亿元。
此次融资由 Andreessen Horowitz 旗下的 a16z 领投,Matrix Partners、Michael Ovitz 和 Y Combinator 跟投。
目前,Salient 估值为 3.5 亿美元,折合人民币 25 亿元。而在此之前,Salient 已从 Matrix 和 General Catalyst(GC)等投资者那里筹集了 400 万美元,折合人民币 2800 多万元。
Salient 主要推出三种产品业务,面向消费贷款行业的企业,分别是语音 AI agent、贷款流程处理大模型部署以及集成解决方案。
Salient 的语音 agent 与其他 agent 不同的是,为金融服务而生,核心为合规性。
它可以实时通过语音、文本、电子邮件和网络聊天进行沟通,以收集付款、处理到期日更改和延期、管理赔付以及更新保险信息。
针对客户沟通中的合规性问题,它有以下处理方式:
-
在处理单个呼叫之前,已接受有关 CFPB、FCRA、TILA 和 UDAP 法规的全面培训;
-
实时监控确保每次交互都遵循严格的金融服务协议;
-
内置保护措施,防止未经授权的披露并维护数据隐私;
-
用于监管审计的一致文档;
-
对欺骗性做法或误导性陈述零容忍。
目前,Salient 已经在与包括 Westlake、ACA、Exeter 和 CPS 在内的主要贷方以及三家上市银行合作。
在语音配置方面,Salient 通过 5 种不同的语音,拨打 6000 多收款电话,付款完成率提高 22%,挂断率降低 17%,通话时间缩短 14%。
相关链接:https://www.trysalient.com/ (@量子位)
4、NotebookLM 「音频概览」支持自定义解析、辩论或批评等模式
NotebookLM 将为「音频概览」(Audio Overviews)和即将推出的「笔记本应用」(Flashcards 和 Quizzes)提供全新的自定义流程。
谷歌 NotebookLM 的最新更新显示其重点扩展到了个人知识管理和学习支持方面。
**音频概览自定义菜单引入了预设模式,如深入解析、辩论或批评,允许用户定制生成音频的格式。**选择模式后,用户可以调整语言、长度并添加自定义指令,相较于之前的版本提供了更高的控制度。
这同样体现在闪卡和测验的自定义中,用户可以选择闪卡或测验,指定问题或卡片数量,并将难度设置为低、中或高。
此外更新:
-
「探索」(Discover)中新增 Gmail 和 Google Drive 选项
-
「音频概览」支持新语言
-
图标支持自定义
相关报道:
https://www.testingcatalog.com/notebooklm-tests-new-customization-flow-and-gmail-integration/ (@testingcatalog@X)
03 有态度的观点
1、OpenAI 回应 ChatGPT 越用越傻:学生应将 ChatGPT 视为工具而非「答题机器」
上周,OpenAI 教育副总裁 Leah Belsky 在最新的播客节目中表示,在 AI 驱动的时代,反对技术进步的人将没有立足之地,学生必须尽早学习如何正确使用 AI 技术。
然而,当前教育界对 AI 的态度仍以防范为主。大多数学校都在寻求阻止学生使用 AI 的方法,而非鼓励或教授相关技能。这主要源于两个担忧:一是 AI 使用被视为作弊行为,二是担心过度依赖 AI 会导致「脑力退化」。
对此,Belsky 将 AI 比作计算器,认为 AI 归根结底是一种工具。在教育领域,最重要的是如何使用这项工具。如果学生把 AI 当作答案机器来使用,他们是学不到东西的。
「因此,我们的部分工作是帮助学生和教育者以能够扩展批判性思维和创造力的方式使用 AI。」
Belsky 特别强调,编程应成为学生的「核心素养」。
她指出,随着「vibe coding」(通过自然语言提示 AI 编写代码)等新技术的出现,编码变得更加容易。她认为每个学生不仅应该学习如何一般性地使用 AI,还应该学习如何使用 AI 来创建图像、开发应用程序和编写代码。(@APPSO)
04 社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、小宿科技招聘前端实习生和音频大模型实习生
JD 详见二维码表格。
更多 Voice Agent 学习笔记:
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南 —— 解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?
视频丨Google 最新 AI 眼镜原型曝光:轻量 XR+情境感知 AI 打造下一代计算平台
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻