11月第1周AI资讯_cosmos tokenizer-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_38369492/article/details/143626163

阅读时间：6-10min

更新时间：2024.11.1-2024.11.8

Runway首次推出AI视频动捕

Runway带来3D摄像机控制新体验

苹果推出第一波 Apple Intelligence 功能

Siri的视觉升级即将到来

谷歌的“Jarvis”浏览器助手即将推出

NVIDIA推出major 机器人AI工具包

腾讯推出开源混元Large模型

Meta向美国国防部开放Llama AI

Runway首次推出AI视频动捕

概要

Runway发布了名为 Act-One的新视频功能，创作者无需任何专门的设备，仅用单个视频和参考图像即可将真实的人类面部表情映射到AI生成的角色上。

详情

简单操作：用智能手机视频和角色图像就能捕捉表演。
细节捕捉：能捕捉微表情和眼球运动。
风格多样：支持不同风格和角度的AI角色。
集成视频：与Runway的视频模型集成，方便创作复杂场景。

链接

Runway Research | Introducing Act-One

Runway带来3D摄像机控制新体验

概要

Runway推出了Gen-3 Alpha Turbo型号的高级摄像机控制功能，提升了AI视频输出的精度，融合了传统电影制作技术。

详情

精确控制：用户可以细致调节摄像机的平移、变焦和跟踪镜头。
3D一致性：在浏览场景时，系统保持深度和空间关系的3D一致性。
世界模型进展：此次更新显示Runway在模拟真实物理环境的AI系统开发上的进步。
电影合作：与狮门影业的合作预示着Runway技术在电影制作中的潜在应用。

链接

https://x.com/runwayml/status/1852363185916932182?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=ai-creates-infinite-gaming-worlds

苹果推出第一波 Apple Intelligence 功能

概要

苹果公司推出了Apple Intelligence人工智能系统，并更新了iOS 18.1和macOS Sequoia 15.1，带来多项提升生产力、创造力和隐私的新特性。

详情

文本工具：系统级写作工具支持文本重写、校对和总结。
照片搜索：增强的照片搜索功能。
Siri升级：新增打字支持、上下文理解提升和产品知识增强。
芯片要求：仅M1/A17 Pro芯片或更高版本设备支持AI功能。
等待名单：部分用户需等待名单系统后才能使用AI功能。
后续更新：预计12月带来更多高级功能，如ChatGPT集成等。

链接

Apple Intelligence is available today on iPhone, iPad, and Mac - Apple

Siri的视觉升级即将到来

概要

苹果通过Apple Intelligence推出新的开发者工具，特别是为Siri增加了屏幕感知功能，显著提升了数字助理的上下文理解能力。

要点：

App Intent API：开发人员可以通过这个新API让Siri和Apple Intelligence访问应用的屏幕内容。
屏幕交互：系统支持与浏览器、文档、照片等的直接交互，无需屏幕截图。
ChatGPT集成测试：iOS 18.2 Beta中已提供早期ChatGPT集成，未来更新将包括全屏感知功能。
竞争功能：该功能将与Claude的计算机使用功能和Copilot Vision等竞争对手的功能竞争。

推荐理由：将Siri从语音命令发展为上下文感知助手是苹果在人工智能领域的重要一步。虽然Apple Intelligence目前尚未给人留下深刻印象，但这些升级可能需要用户亲自体验后，才能真正认识到苹果在人工智能排行榜上的价值和潜力

详情

开发者工具：推出“App Intent API”以便Siri和Apple Intelligence访问应用屏幕内容。
屏幕内容交互：支持与浏览器、文档、照片等的直接交互，无需屏幕截图。
ChatGPT集成：iOS 18.2 Beta中已开始测试ChatGPT集成，未来将提供全屏感知功能。
市场竞争：新功能将与市场上类似功能如Claude和Copilot Vision竞争。

链接

Making onscreen content available to Siri and Apple Intelligence | Apple Developer Documentation

谷歌的“Jarvis”浏览器助手即将推出

概要

谷歌正在开发名为“Project Jarvis”的人工智能代理，旨在通过控制网络浏览器帮助用户完成日常任务，预计最早12月推出预览版。

详情

功能：Jarvis能够捕获和解释浏览器屏幕截图，以导航网站和输入信息。
专注领域：初期将专注于在线购物、研究和旅行预订等消费者任务。
优化：专为网络浏览器优化
性能：操作间存在几秒钟的延迟。

NVIDIA推出major 机器人AI工具包

概要

Nvidia在2024年机器人学习会议（CoRL）上宣布了一系列用于机器人开发的AI模拟工具，旨在推进机器人开发，特别是人形机器人。这些工具包括Isaac Lab框架、训练系统等。

详情

Isaac Lab框架：Nvidia的Isaac Lab框架现已普遍可用，提供开源工具用于大规模训练机器人
GR00T项目：引入了新的专业工作流程，从运动生成到环境感知，专注于人形机器人开发
Hugging Face合作：与Hugging Face的新合作伙伴关系将LeRobot平台与Nvidia的工具集成，以加速AI机器人计划
Cosmos tokenizer：Nvidia推出了Cosmos tokenizer，它处理机器人视觉数据的速度比现有解决方案快12倍

链接

NVIDIA Advances Robot Learning, Humanoid Development With New AI and Simulation Tools | NVIDIA Blog

腾讯推出开源混元Large模型

概要

腾讯发布了Hunyuan-Large，这是一种新的开源语言模型，它结合了大规模参数和专家混合（MoE）架构，以更少的活跃参数实现了与竞争对手相当的性能。

详情

参数规模：模型拥有389B个参数，但仅激活52B个参数以提高效率。
创新技术：采用创新的路由策略和学习率技术。
训练数据：使用7T tokens（包括1.5T合成数据）进行训练。
性能表现：在数学、编码和推理任务中实现SOTA性能。
MMLU基准测试：取得88.4%的成绩，超过LLama3.1-405B的85.2%。
上下文长度：支持高达256K标记的上下文长度，是同类竞争对手的两倍。

链接

https://arxiv.org/pdf/2411.02265

Meta向美国国防部开放Llama AI

概要

Meta宣布将向美国政府机构和国防部门提供其Llama AI模型，用于国家安全应用，这标志着公司政策的重大转变，特别是在军事用途方面。

详情

合作伙伴：Meta与亚马逊、微软、Palantir、洛克希德马丁和甲骨文等公司合作，将Llama AI模型引入政府机构。
早期应用：Oracle使用Llama分析飞机文档以加快维修速度，Scale AI微调Llama进行任务规划和威胁分析。
政策例外：这一举措打破了Meta禁止将Llama用于军事、战争或间谍活动的政策。
政策转变背景：政策转变发生在中国军事研究人员使用Llama 2开发国防应用程序的报道之后。
开放标准：Meta认为这一决定对于建立人工智能开放标准至关重要，并希望美国模式能为全球人工智能发展奠定基础。

链接

Open Source AI Can Help America Lead in AI and Strengthen Global Security | Meta