人脸解锁手机与电影阿丽塔背后的3D原理:云从科技的技术突破

本文介绍了云从科技基于单帧图像的3D重建技术。该技术可从单帧图像推理出人体或人脸3D形态,与传统技术相比,结果更丰富且能体现纵深信息。此技术在多个数据集上创世界纪录,降低误差、提升速度,还可应用于电影制作、智能试衣等领域,推动智能图像应用落地。

640?wx_fmt=jpeg

原创:谭婧

作为人类,感谢与生俱来的视力,我们睁眼便可见一个三维的世界,我们的大脑天生就有处理三维数据的能力,而计算机则比较困难,处理的信息从2D到3D迈出了一大步,三维数据能够提供比二维数据更多的信息。


640?wx_fmt=jpeg

640?wx_fmt=png

如图:面补贴点获得3D信息

提到计算机的3D图像处理技术可能不好理解,但是想到这个技术的应用就是苹果手机人脸解锁的功能,这样一定不会让人感到陌生。再提到豪华特效巨制电影《阿丽塔》,3D信息采集需要专门的设备与面部贴点来完成精细的人像采集,但是工程量巨大,据说她的一只眼睛比《魔戒》中咕噜全身的像素都高。


640?wx_fmt=jpeg

如图:咕噜对自己像素低很不满意!

这部电影平均每一帧需要100小时渲染,总计用了4.32亿个小时的渲染,共动用了30000台电脑,看来除了演员辛苦,计算机也没少出力。

为什么要费尽心思获得三维信息?举个例子,我的面前放了一个杯子,用手机拍一张照片,你看到了我和杯子。因为照片是二维的你获得的信息很有限,如果这是一张三维的照片,那么你讲清楚的知道,杯子离我的精确距离。而看普通的二维照片只能大概估计一下杯子离我的远近。

640?wx_fmt=jpeg

如图:请问两个杯子之间的距离是多少?

既然信息量更大,那么3D数据对技术的压力也就更大。

  1. 压力一:3D数据的计算是矩阵计算,对计算机的算力有了更高的要求。

  2. 压力二:3D数据的标注比二维困难。

  3. 压力三:3D数据的获得,或者说采集,可比二维数据的贵多了。比如体感相机可以拿到3D的数据,而二维数据由普通光学摄像头拍出来,也就是平时用的相机拍出来的普通照片。

由此可以总结,玩3D图像是土豪的专属。

640?wx_fmt=jpeg

再看我们最常见智能手机人脸解锁功能,也有不完美之处——克服不了同卵双胞胎长得太像的魔咒。因此可以互相解锁彼此的手机。

这个问题的其中一个原因就是如果数据能够刻画出双胞胎之间微妙的不同,那么问题就好说。所以3D技术也在不断提高自己的战斗力。

为了打破3D数据的土豪光环,计算机视觉的科学家们八仙过海,而人工智能公司云从科技又有了新的技术突破。

这个技术叫做——基于单帧图像的3D重建技术。

640?wx_fmt=jpeg


640?wx_fmt=jpeg

如图:人体姿态信息

这项人工智能技术可以从单帧图像中推理出人体或人脸的3D形态,并通过“光学透视”和“阴影叠加”等基本光学原则准确预测出各个关键点在3D空间的位置和朝向,从而得到人体的姿态或表情信息。从推理,到准确预测。这样就可从2D图像的信息中得到3D图像的信息。


640?wx_fmt=jpeg

如图:人体姿态信息

640?wx_fmt=jpeg

如图:人体姿态信息

有了这项神技巧,玩3D图像不再是土豪的专属。获取3D图像的昂贵设备、数据的处理和运算算力的成本都可以一下省了很多。


这项技术与传统关键点检测、3D重建技术的区别在哪?

传统的人体关键点检测技术往往以2D的人体骨骼关节点检测形式出现,即通过技术预测RGB图像中人体的十几个关节点的坐标,一方面结果非常稀疏,将人体大为简化成骨骼的形式,另一方面结果往往只包含二维平面上的坐标预测,不能还原深度信息,因此无法体现纵深的感觉。而基于单帧图像的3D重建技术不仅能输出骨骼关节点信息,更能同时预测大量的人体表面关键点信息,预测结果更加丰富,而且每个点的坐标都是3D的,能够体现不同躯干的纵深信息。


640?wx_fmt=png

如图:3D关键点检测

传统3D重建技术大多需要连续的图像序列或是多视角的图像,在硬件设备上一般需要采用双目摄像机或者结构光摄像机等设备,因此在手机等便携设备上往往难以实现;另一方面,专用设备还会增加部署成本,增加大规模普及3D重建技术的难度。


这项技术的成果如何?

3月19日,云从科技基于单帧图像的3D人体重建技术同时在Human3.6M、Surreal和UP-3D数据集上创造了最新的世界纪录,此次突破将原有最低误差记录大幅降低30%,也是继去年云从在3D人脸数据集上大幅刷新纪录后,再次在此类3D重建技术上取得重要成果。


640?wx_fmt=png

如图:Human3.6M数据集上对比

640?wx_fmt=png如图:在Surreal数据集上的误差对比

640?wx_fmt=png

如图:UP-3D数据集上对比

3D重建领域通常以误差作为衡量算法能力的主要指标,误差就是生成模型与实际图像的差别。一般来说,误差越低,精度越高,意味着技术的性能越好。比如云从科技3D人体重建技术全身精度误差在Surreal数据集上从75.4毫米降低到52.7毫米,关节精度误差从55.8 毫米降低到40.1 毫米,Human3.6M数据集上的关节精度误差从59.9毫米降低到46.7毫米,技术的执行速度从之前的上百毫秒降低到仅需5毫秒。

技术应用

如果人工智能技术能够从二维图像得到三维图像。阿丽塔电影中,涉及专用特效设备与面部贴点来完成精细的人像采集工程量巨大的劳动,基于单帧图像的3D人体与人脸重建技术,有机会彻底颠覆电影的拍摄制作,同时降低工业级3D动画合成的门槛。


640?wx_fmt=jpeg

640?wx_fmt=jpeg

如果人工智能技术能够从二维图像得到三维图像。逛街买衣服想用智能设备解决试穿衣服的问题也迎刃而解。抛弃体感相机。由于对输入图像的要求低,使3D重建技术将可以利用普通光学摄像头作为感知设备。商场内试衣魔镜将会自动根据身形生成你所想要更换的衣服。

云从科技针对人体具有丰富多样的姿态和穿着的特点,提出了一套全新的基于人体3D纵深预测的3D信息表征方式。通过对三原色图像RGB,不含深度信息的分析,预测人体的3D形态和姿势,并用6万多个点完整描绘人体,从而在人体重建技术上取得速度与精度的双突破。这样模型更精细,帧率更是高达到200fps,原本由于受实时显示限制而无法实现的应用可以一一实现——这将极大地推动相关智能图像应用的落地步伐。

640?wx_fmt=png

如图:智能试衣

综上所述,云从科技的这个技术叫做基于单帧图像的3D重建技术,打破了3D图像的土豪光环,人工智能又有了新的技术突破。(完)

亲爱的数据

出品:谭婧

美编:陈泓宇

640?wx_fmt=png

640?wx_fmt=png




内容概要:本文系统阐述了Java Persistence API(JPA)的核心概念、技术架构、核心组件及实践应用,重点介绍了JPA作为Java官方定义的对象关系映射(ORM)规范,如何通过实体类、EntityManager、JPQL和persistence.xml配置文件实现Java对象数据库表之间的映射操作。文章详细说明了JPA解决的传统JDBC开发痛点,如代码冗余、对象映射繁琐、跨数据库兼容性差等问题,并解析了JPAHibernate、EclipseLink等实现框架的关系。同时提供了基于Hibernate和MySQL的完整实践案例,涵盖Maven依赖配置、实体类定义、CRUD操作实现等关键步骤,并列举了常用JPA注解及其用途。最后总结了JPA的标准化优势、开发效率提升能力及在Spring生态中的延伸应用。 适合人群:具备一定Java基础,熟悉基本数据库操作,工作1-3年的后端开发人员或正在学习ORM技术的中级开发者。 使用场景及目标:①理解JPA作为ORM规范的核心原理组件协作机制;②掌握基于JPA+Hibernate进行数据库操作的开发流程;③为技术选型、团队培训或向Spring Data JPA过渡提供理论实践基础。 阅读建议:此资源以理论结合实践的方式讲解JPA,建议读者在学习过程中同步搭建环境,动手实现文中示例代码,重点关注EntityManager的使用、JPQL语法特点以及注解配置规则,从而深入理解JPA的设计思想工程价值。
先看效果: https://pan.quark.cn/s/d787a05b82eb 西门子SCALANCE X系列交换机是西门子公司所提供的工业以太网交换机产品系列,其在工业自动化领域具有广泛的应用。 如果在应用期间遭遇固件升级失误或采用了不相容的固件版本,可能会导致交换机无法正常启动。 在这种情况下,通常能够借助FTP(文件传输协议)来恢复交换机的固件,从而使其恢复正常运作。 本文件详细阐述了利用FTP修复SCALANCE X系列交换机固件的方法,并具体说明了实施步骤。 当SCALANCE X系列交换机的固件出现故障时,设备在启动后会自动激活引导加载程序,并通过故障LED的闪烁来表明设备处于特殊情形。 在这种情形下,交换机能够充当FTP服务器,客户端建立联系,执行固件数据的传输。 需要特别强调的是,对于SCALANCE X200系列交换机,必须经由端口1来连接FTP客户端。 在实施步骤方面,首先需要为交换机指定一个IP地址。 这一步骤通常借助西门子公司提供的PST(Product Support Tools)软件来实施。 在成功配置IP地址之后,就可以通过FTP协议交换机内部的FTP服务器建立连接,并借助FTP客户端将固件文件传输到交换机。 需要留意的是,在传输固件文件之前,应当先从西门子技术支持网站获取对应订货号的固件版本文件。 一旦固件文件备妥,就可以开始FTP操作。 这通常涉及打开操作系统的DOS窗口,运用FTP指令连接到交换机的FTP服务器,并输入正确的用户名和密码进行身份验证。 在本案例中,用户名和密码均为“siemens”,并且传输模式设定为二进制。 随后,使用FTP的“put”指令将本地固件文件上传至交换机。 值得留意的是,固件文件名必须严格遵循大小写规则。 上传成功后,...
源码地址: https://pan.quark.cn/s/f24fc84966ae 人机交互在电子工程领域中占据着核心地位,它具体指的是单片机系统用户之间进行信息交换和管理操作的方法。 在此过程中,单片机系统负责接收用户的输入信号,对收集到的信息进行加工处理,并通过特定媒介将处理结果呈现给用户,这些媒介包括但不限于显示器、LED指示灯以及蜂鸣器等设备。 在本探讨的主题中,我们将重点研究按键1602液晶显示屏之间的交互机制。 1602液晶显示屏是单片机应用领域中一种极为常见的人机交互界面设备,其功能在于能够显示两行文本,每行包含16个字符。 此类显示器通常采用串行或并行接口单片机设备进行连接,主要用途是展示程序运行的状态信息、数据读取的最终结果以及其他相关的重要资讯。 我们需要深入理解如何对1602液晶显示屏进行配置和控制。 这一过程通常涉及到初始化序列的执行,其中包括设定显示模式(例如开启/关闭状态、光标移动的方向以及是否启用闪烁效果),同时选择合适的数据传输方式(4线或8线模式)。 单片机系统必须向液晶显示屏发送特定的指令集,以此来设定上述参数。 举例来说,可以通过RS(寄存器选择)、RW(读写信号)以及E(使能)引脚LCD设备进行通信。 接下来,我们将详细讨论按键接口的设计方案。 按键通常作为输入设备存在,允许用户向单片机系统发送指令或数据。 在单片机系统中,按键通常IO端口相连接,通过检测IO端口电平的变化来判断按键是否被触发。 对于基础的按键应用场景,可能仅需检测按键闭合时产生的低电平信号;而对于更为复杂的应用场景,则可能需要处理消抖问题,以防止因机械接触产生的瞬间抖动导致错误的读数。 在Proteus软件环境中,我们可以构建虚拟的电路模型来模拟单片机系统,其中包括1...
数据集介绍:垃圾分类检测数据集 一、基础信息 数据集名称:垃圾分类检测数据集 图片数量: 训练集:2,817张图片 验证集:621张图片 测试集:317张图片 总计:3,755张图片 分类类别: - 金属:常见的金属垃圾材料。 - 纸板:纸板类垃圾,如包装盒等。 - 塑料:塑料类垃圾,如瓶子、容器等。 标注格式: YOLO格式,包含边界框和类别标签,适用于目标检测任务。 数据格式:图片来源于实际场景,格式为常见图像格式(如JPEG/PNG)。 二、适用场景 智能垃圾回收系统开发: 数据集支持目标检测任务,帮助构建能够自动识别和分类垃圾材料的AI模型,用于自动化废物分类和回收系统。 环境监测废物管理: 集成至监控系统或机器人中,实时检测垃圾并分类,提升废物处理效率和环保水平。 学术研究教育: 支持计算机视觉环保领域的交叉研究,用于教学、实验和论文发表。 三、数据集优势 类别覆盖全面: 包含三种常见垃圾材料类别,覆盖日常生活中主要的可回收物类型,具有实际应用价值。 标注精准可靠: 采用YOLO标注格式,边界框定位精确,类别标签准确,便于模型直接训练和使用。 数据量适中合理: 训练集、验证集和测试集分布均衡,提供足够样本用于模型学习和评估。 任务适配性强: 标注兼容主流深度学习框架(如YOLO等),可直接用于目标检测任务,支持垃圾检测相关应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值