9、多对象识别：从理论到实践的创新探索-优快云博客

本文链接：https://blog.youkuaiyun.com/stone/article/details/154968108

                    
                        
                    
                     多对象识别：从理论到实践的创新探索  
 1. 成对对象交互建模  
 1.1 实验设计  
 数据收集：从六名受试者那里收集了五对对象的五种交互类型的数据。这些交互对象对包括茶壶 - 杯子、铅笔 - 铅笔盒、瓶盖 - 瓶子、CD - CD 盒和勺子 - 杯子。对应的动作分别是从茶壶向杯子倒水、将铅笔放入铅笔盒、拧紧瓶盖、将 CD 放入 CD 盒以及用勺子在杯子里搅拌。 
 数据划分：四名受试者的数据用于训练，另外两名受试者的数据用于测试。每个受试者对每个动作进行两到三次试验。 
 
 1.2 模型训练  
 监督训练：对象分类器、动作分类器和贝叶斯网络都采用监督方式进行训练。 
 训练数据来源：对象分类器的训练图像来自 ImageNet 和 Google 图像搜索；动作分类器和贝叶斯网络的训练数据来自实验中手动标记的视频序列，共使用了四名受试者的 50 个视频序列进行训练，在每个训练视频序列中，手动标记了对象位置、触及位置、动作类型和操作的起始帧。 
 
 1.3 实验结果  
 对象分类：实验结果通过混淆矩阵展示。对于对象 1（关键触及动作开始时的对象），仅基于外观很难区分铅笔和勺子，因为它们形状相似且都较小。但通过引入人 - 对象 - 对象交互的上下文，贝叶斯网络能够更准确地识别勺子和铅笔，对象 1 的平均识别成功率从 72.6% 提高到 86.0%，对象 2（关键触及动作结束时的对象）的平均识别成功率从 75.3% 提高到 82.8%。 
 动作识别：在研究的五个动作中，仅基于运动特征很难区分将 CD 放入 CD 盒、