FUSE:迈向基于人工智能的增强现实体验未来服务
1. 引言
创建智能 AR 服务的关键挑战之一是确保其具有足够的泛化能力。例如,用于翻译外语的 AR 系统,要能翻译印在各种表面(如交通标志、显示屏、纸张、产品包装)上的非预定义文本,且文本字体和大小各异。又如智能数码相机,需在无需了解人物数量、种族、年龄等外貌信息的情况下,自动判断何时拍出最佳照片,比如所有人都微笑的时候。
AI 增强的 AR 服务在支持各类学习场景方面潜力巨大,包括专业培训和语言学习。以“关键字法”学习外语词汇为例,人们利用外语单词在母语中的发音,建立两者间的视觉联想。如日语“书”是“hon”,发音像“honey”,可联想“一本沾满蜂蜜的书”。AR 系统能在现实场景中标注外语的记忆联想,但如果同时展示联想的可视化图像,效果会更好。然而,关键挑战在于如何将该技术推广到未准备的任意环境中,自动检测、识别和分割场景物体,以便系统自动标注场景,还需确定合适的记忆联想集,自动生成并放置合成图像辅助外语单词记忆。
一个成功的 AR 应用需要实现如图 1 所示的渲染流程:
graph LR
A[传感器] --> B[处理信息]
B --> C1[计算相机外参]
B --> C2[理解环境]
C1 --> D[渲染器]
C2 --> D
D --> E[生成 2D 图像显示]
流程开始时,可选的传感器(如 RGB 相机、深度相机、IMU、红外相机等)收集环境信息。信息处理有两个目标:一是计算相机外参(定义相机的位置和方向);二是理解
AI驱动的AR体验:未来服务与技术挑战
超级会员免费看
订阅专栏 解锁全文

1871

被折叠的 条评论
为什么被折叠?



