设计思维与科学技术的交汇点
设计师、工程师、软件开发人员和科学家团队花费数月时间进行假设、实验、学习、迭代,最终创造了Echo Show 10设备。
原型阶段的意外发现
在Echo Show 10的研发过程中,设计、工程和科学团队遇到了一个意外:他们早期的假设被证明是错误的。该设备最突出的特点是能够利用运动技术,在用户围绕房间移动并与Alexa互动时自动面向用户。
团队最初认为用户会希望设备始终面对他们,匹配他们的每个移动位置。由于没有现成硬件,团队转向虚拟现实(VR)进行原型设计。这种方法使团队能够共同测试假设,包括关于屏幕应该如何行为的假设。
技术突破与迭代
声音定位技术
- 初始方法使用语音空间线索估计用户位置
- 传统波束选择精度为±30度,存在干扰噪声和声音反射问题
- 音频技术团队开发了新的声音定位算法,通过分解声波并训练模型检测直达声
计算机视觉集成
- 计算机视觉算法允许设备在其视野内定位人类
- 开发了融合算法,将计算机视觉和声音方向结合到优化最终运动的模型中
- 团队使用边界框和卡尔曼滤波算法跟踪人员移动
技术挑战与解决方案
帧率差异
- 视频通话以每秒24帧运行,而深度学习检测网络在设备上仅以每秒10帧运行
- 团队通过提供检测间的中间结果来弥合帧率差异
智能运动
- 设备需要根据用户参与度调整行为
- 基于用户与设备距离的设置,粗略测量客户参与程度
- 近距离时设备移动较少,多任务处理时提供更平滑的过渡
未来发展方向
团队正在探索为设备添加更多个性表达,同时致力于提升设备处理速度。深度学习网络不断发展,团队将持续推动这一前沿技术的进步。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
2224

被折叠的 条评论
为什么被折叠?



