11月第1周AI资讯

阅读时间:6-10min

更新时间:2024.11.1-2024.11.8

目录

Runway首次推出AI视频动捕

Runway带来3D摄像机控制新体验

苹果推出第一波 Apple Intelligence 功能

 Siri的视觉升级即将到来

谷歌的“Jarvis”浏览器助手即将推出

NVIDIA推出major 机器人AI工具包

腾讯推出开源混元Large模型

 Meta向美国国防部开放Llama AI


Runway首次推出AI视频动捕

概要

Runway发布了名为 Act-One的新视频功能,创作者无需任何专门的设备,仅用单个视频和参考图像即可将真实的人类面部表情映射到AI生成的角色上。

详情

  • 简单操作:用智能手机视频和角色图像就能捕捉表演。
  • 细节捕捉:能捕捉微表情和眼球运动。
  • 风格多样:支持不同风格和角度的AI角色。
  • 集成视频:与Runway的视频模型集成,方便创作复杂场景。

推荐理由

过去,专业品质的角色动画需要大量劳动力和设备、耗时且昂贵。Act-One让创作者轻松制作出富有表现力的角色动画,降低了专业动画制作的门槛和成本,让创意故事讲述变得更加简单和高效。

链接

Runway Research | Introducing Act-One


Runway带来3D摄像机控制新体验

概要

Runway推出了Gen-3 Alpha Turbo型号的高级摄像机控制功能,提升了AI视频输出的精度,融合了传统电影制作技术。

详情

  • 精确控制:用户可以细致调节摄像机的平移、变焦和跟踪镜头。
  • 3D一致性:在浏览场景时,系统保持深度和空间关系的3D一致性。
  • 世界模型进展:此次更新显示Runway在模拟真实物理环境的AI系统开发上的进步。
  • 电影合作:与狮门影业的合作预示着Runway技术在电影制作中的潜在应用。

推荐理由

虽然AI视频质量取得了令人惊叹的飞跃,但迄今为止,能够可靠且精确塑造输出的工具尚未普及。这次升级让AI视频生成从随机输出转变为创作者可以精确控制的工具,标志着视频生成技术向专业电影制作领域迈进,为创作者提供了更强大的叙事和创作能力。

链接

https://x.com/runwayml/status/1852363185916932182?utm_source=www.therundown.ai&utm_medium=referral&utm_campaign=ai-creates-infinite-gaming-worlds


苹果推出第一波 Apple Intelligence 功能

概要

苹果公司推出了Apple Intelligence人工智能系统,并更新了iOS 18.1和macOS Sequoia 15.1,带来多项提升生产力、创造力和隐私的新特性。

详情

  • 文本工具:系统级写作工具支持文本重写、校对和总结。
  • 照片搜索:增强的照片搜索功能。
  • Siri升级:新增打字支持、上下文理解提升和产品知识增强。
  • 芯片要求:仅M1/A17 Pro芯片或更高版本设备支持AI功能。
  • 等待名单:部分用户需等待名单系统后才能使用AI功能。
  • 后续更新:预计12月带来更多高级功能,如ChatGPT集成等。

推荐理由

尽管Apple Intelligence的初始版本并未完全达到预期的人工智能革命,但它标志着苹果在AI领域的实质性进展。随着即将到来的更新,用户可以期待更全面和强大的人工智能体验。

链接

Apple Intelligence is available today on iPhone, iPad, and Mac - Apple


 Siri的视觉升级即将到来

概要

苹果通过Apple Intelligence推出新的开发者工具,特别是为Siri增加了屏幕感知功能,显著提升了数字助理的上下文理解能力。

要点:

  1. App Intent API:开发人员可以通过这个新API让Siri和Apple Intelligence访问应用的屏幕内容。
  2. 屏幕交互:系统支持与浏览器、文档、照片等的直接交互,无需屏幕截图。
  3. ChatGPT集成测试:iOS 18.2 Beta中已提供早期ChatGPT集成,未来更新将包括全屏感知功能。
  4. 竞争功能:该功能将与Claude的计算机使用功能和Copilot Vision等竞争对手的功能竞争。

推荐理由:将Siri从语音命令发展为上下文感知助手是苹果在人工智能领域的重要一步。虽然Apple Intelligence目前尚未给人留下深刻印象,但这些升级可能需要用户亲自体验后,才能真正认识到苹果在人工智能排行榜上的价值和潜力

详情

  • 开发者工具:推出“App Intent API”以便Siri和Apple Intelligence访问应用屏幕内容。
  • 屏幕内容交互:支持与浏览器、文档、照片等的直接交互,无需屏幕截图。
  • ChatGPT集成:iOS 18.2 Beta中已开始测试ChatGPT集成,未来将提供全屏感知功能。
  • 市场竞争:新功能将与市场上类似功能如Claude和Copilot Vision竞争。

推荐理由

虽然Apple Intelligence目前的表现尚未达到市场预期,但Siri的屏幕感知功能和上下文理解能力的提升,标志着苹果在人工智能领域的积极进步。这些升级可能会吸引用户亲自体验,从而在人工智能领域中为苹果赢得一席之地。

链接

Making onscreen content available to Siri and Apple Intelligence | Apple Developer Documentation


谷歌的“Jarvis”浏览器助手即将推出

概要

谷歌正在开发名为“Project Jarvis”的人工智能代理,旨在通过控制网络浏览器帮助用户完成日常任务,预计最早12月推出预览版。

详情

  • 功能:Jarvis能够捕获和解释浏览器屏幕截图,以导航网站和输入信息。
  • 专注领域:初期将专注于在线购物、研究和旅行预订等消费者任务。
  • 优化:专为网络浏览器优化
  • 性能:操作间存在几秒钟的延迟。

推荐理由

尽管Jarvis的发布可能因Anthropic的实时计算机使用功能而显得不那么令人兴奋,但它的推出与Gemini升级一起,可能会为谷歌在新的一年中带来新的动力。然而,如果Jarvis的实际表现未能满足期待,可能会在长时间的等待后让市场感到失望。


NVIDIA推出major 机器人AI工具包

概要

Nvidia在2024年机器人学习会议(CoRL)上宣布了一系列用于机器人开发的AI模拟工具,旨在推进机器人开发,特别是人形机器人。这些工具包括Isaac Lab框架、训练系统等。

详情

  • Isaac Lab框架:Nvidia的Isaac Lab框架现已普遍可用,提供开源工具用于大规模训练机器人
  • GR00T项目:引入了新的专业工作流程,从运动生成到环境感知,专注于人形机器人开发
  • Hugging Face合作:与Hugging Face的新合作伙伴关系将LeRobot平台与Nvidia的工具集成,以加速AI机器人计划
  • Cosmos tokenizer:Nvidia推出了Cosmos tokenizer,它处理机器人视觉数据的速度比现有解决方案快12倍

推荐理由

Nvidia的这些新工具和合作伙伴关系将为机器人开发者提供强大的支持,特别是在人形机器人领域。通过提供先进的AI学习和模拟工具,Nvidia正在将自己定位为机器人行业的基础设施提供者。这些工具的推出,预示着机器人领域将加速发展,特别是在物理AI和人形机器人技术方面。

链接

NVIDIA Advances Robot Learning, Humanoid Development With New AI and Simulation Tools | NVIDIA Blog


腾讯推出开源混元Large模型

概要

腾讯发布了Hunyuan-Large,这是一种新的开源语言模型,它结合了大规模参数和专家混合(MoE)架构,以更少的活跃参数实现了与竞争对手相当的性能。

详情

  • 参数规模:模型拥有389B个参数,但仅激活52B个参数以提高效率。
  • 创新技术:采用创新的路由策略和学习率技术。
  • 训练数据:使用7T tokens(包括1.5T合成数据)进行训练。
  • 性能表现:在数学、编码和推理任务中实现SOTA性能。
  • MMLU基准测试:取得88.4%的成绩,超过LLama3.1-405B的85.2%。
  • 上下文长度:支持高达256K标记的上下文长度,是同类竞争对手的两倍。

推荐理由

腾讯的Hunyuan-Large模型通过使用更少的活跃参数取得了令人印象深刻的结果,这可能为开源大型模型的发展提供了一种更有效的路径,而不是仅仅通过增加模型规模来提升性能。这种效率的提升可能会重塑我们对AI模型扩展性的认识,并为未来的研究和应用开辟新的可能性。

链接

https://arxiv.org/pdf/2411.02265


 Meta向美国国防部开放Llama AI

概要

Meta宣布将向美国政府机构和国防部门提供其Llama AI模型,用于国家安全应用,这标志着公司政策的重大转变,特别是在军事用途方面。

详情

  • 合作伙伴:Meta与亚马逊、微软、Palantir、洛克希德马丁和甲骨文等公司合作,将Llama AI模型引入政府机构。
  • 早期应用:Oracle使用Llama分析飞机文档以加快维修速度,Scale AI微调Llama进行任务规划和威胁分析。
  • 政策例外:这一举措打破了Meta禁止将Llama用于军事、战争或间谍活动的政策。
  • 政策转变背景:政策转变发生在中国军事研究人员使用Llama 2开发国防应用程序的报道之后。
  • 开放标准:Meta认为这一决定对于建立人工智能开放标准至关重要,并希望美国模式能为全球人工智能发展奠定基础。

推荐理由

Meta的这一政策转变显示了人工智能在国家安全领域的不可或缺性,同时也反映了对全球人工智能发展领导权的竞争。这一举措可能会引发关于工业和技术对国家安全影响的讨论,特别是在考虑到中国军事研究报告的背景下。这一决策不仅对Meta公司,而且对整个人工智能领域和全球安全格局都具有深远的影响。

链接

Open Source AI Can Help America Lead in AI and Strengthen Global Security | Meta


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MOLWH

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值