语义图像检索与时间加速模拟文明
语义图像检索
在语义图像检索领域,通过结合深度卷积神经网络(DCNNs)进行目标检测和认知架构进行语义分析及查询执行,能够充分利用基于深度神经网络(DNN)的图像分析能力,以及认知架构中知识表示和推理的灵活性与组合性。
Atomese代码与谓词
Atomese代码可以表示谓词关系。例如,谓词“RightTo”对于绑定到变量节点“$BB1”和“$BB2”的节点对可能评估为真。虽然不一定要将结果表示为谓词,但需要创建一个包含必要信息且可进行模式匹配的子图。此外,还可以定义其他谓词,用于判断边界框(BBs)的相交、包含、上下位置等关系,从而实现如“桌子上的花瓶”“有人的画作”等查询。
OpenCog支持非二进制真值,尽管当前实现中未使用,但这些真值可用于描述空间关系的软版本,还能与检测器为标签分配的置信度值相结合。
在进行模式匹配时,仅通过一步的模式匹配往往无法找到与感兴趣查询(如“桌子上的花瓶”)对应的子图,需要调用绑定链接(Bind links)来计算辅助谓词的真值。OpenCog有前向链和后向链两种推理步骤链接机制,在当前任务中,后向链更为合适。后向链从感兴趣的子图(查询)开始,反向查找能够推断出该子图的绑定链接。
实验验证
为了验证该方法并测试构建的系统,进行了一些视频序列实验。执行了不同的查询,以检索包含特定相对位置对象的视频帧,如“车内的人”“带包的人”等查询都得到了成功测试。
| 查询示例 | 说明 |
|---|
超级会员免费看
订阅专栏 解锁全文
1847

被折叠的 条评论
为什么被折叠?



