
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01有话题的技术
1、PD:像 Sora 一样,用物理模拟方式生成视频
麻省理工学院、斯坦福大学、哥伦比亚大学、康奈尔大学的研究人员联合开源了创新 3D 交互视频模型——PhysDreamer(简称「PD」)。
PD 和 OpenAI 的 Sora 一样,是一个可以通过物理模拟的方式来生成视频。也就是说,PD 的视频具备很多物理世界的特征。
例如,用手去触摸一盆花后,花朵会左右摇摆直至缓慢停止。PD 可以准确地捕捉到物体很多微妙的动态变化和复杂的交互细节,生成的视频也就更加精准、细腻。(@AIGC 开放社区)
2、微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体
IT 之家 2 月 17 日消息,微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具,此前搭配 GPT-4V 可显著增强识别能力。
2 月 12 日,微软在官网发布了 OmniParser 最新版本 V2.0 ,可将 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,变成可以操控计算机的 AI 智能体。
与 V1 版本相比,OmniParser V2 使用了更大规模的交互元素检测数据和图标功能标题数据进行了训练,在检测较小的可交互 UI 元素时准确率更高、推理速度更快,延迟降低了 60%。
在高分辨率 Agent 基准测试 ScreenSpot Pro 中 , V2+GPT-4o 的准确率达到了 39.6% ,而 GPT-4o 原始准确率只有 0.8%。

为了能够更快地实验不同的智能体设置, 微软还开源了 OmniTool,这是一个集成了智能体所需一系列基本工具的 Docker 化 Windows 系统 ,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成智能体的关键工具。
开源地址:https://github.com/microsoft/OmniParser(@IT 之家)
3、阿里升级 AI 人像视频生成,表情动作直逼专业水准
EMO 最初由阿里巴巴通义实验室提出,作为音频驱动高表现力人像 AI 视频生成的先驱。现在,该实验室的研究者带来了升级版本「EMO2」。
只需提供一张人物的肖像图片,你就可以输入任意长度的音频来驱动人物说话、唱歌或进行手势舞。并且,生成的人物表情和动作都具备高度的感染力和专业水准。(@机器之心)

最低0.47元/天 解锁文章
392

被折叠的 条评论
为什么被折叠?



