设计科学与计算机视觉的融合
在Echo Show 10的研发过程中,设计团队与科学团队发现了一个意外:他们早期的假设被证明是错误的。这款设备最突出的特点是利用运动技术,在用户移动时自动调整屏幕朝向。这使得用户可以在厨房查看食谱时自由移动,或在视频通话时保持屏幕始终在视野中。
研发团队原本认为用户会希望设备始终实时对准自己。但通过虚拟现实原型测试,他们发现用户实际偏好设备反应略有延迟的体验。这一发现促使设计、工程、软件开发和科学团队持续迭代改进。
从概念到迭代
产品团队最初提出旋转设备的概念,但具体应用场景尚不明确。设计团队随后创建了利用运动增强用户体验的使用案例。应用科学经理指出:“为Echo添加运动功能是项重大挑战,包括如何确保体验自然而不令用户感到不适。”
技术挑战与突破
声音定位技术
团队最初计划通过声音空间线索估计用户位置,但传统波束选择存在±30度的精度误差,且易受噪声和声音反射干扰。音频技术团队开发了新的声音定位算法,通过分解声波基本成分并训练模型检测直达声,准确判断声音方向。
计算机视觉融合
当设备靠近墙壁放置时,仅靠音频定位精度不足。团队开发了计算机视觉算法,在设备视野内定位人体,提高准确性并区分真实用户与墙壁反射声音。还创建了融合算法,将计算机视觉与声音方向信息结合优化最终运动。
帧率与检测优化
视频通话通常以24帧/秒运行,而深度学习检测网络在设备上仅能以10帧/秒运行。团队通过边界框和卡尔曼滤波算法解决这一延迟问题,使设备能够对用户运动做出智能预测。
智能运动体验
测试发现用户与设备互动有两种模式:专注通话或多任务处理。团队通过计算机视觉测量用户与设备距离,根据距离调整运动设置。近距离时减少移动避免屏幕抖动,多任务时提供更平滑的过渡。
未来展望
团队正致力于提升设备处理速度,持续优化深度学习模型在多人、低光照、快速运动等边缘场景的性能。随着技术发展,未来设备可能通过硬件运动展现更多个性特征。
这项研发证明,通过跨团队协作能够克服复杂技术挑战,即使最初假设需要不断调整,也能最终创造出令人满意的智能设备体验。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


1404

被折叠的 条评论
为什么被折叠?



