多模态模式学习与半监督学习可靠性评估研究
1 多模态模式学习相关内容
1.1 视觉单元
视觉单元的目标是处理信号,以获得一组给定对象的全局模型。以下是其具体处理流程:
1. 帧选择 :从视频序列中挑选出仅显示对象且无遮挡的帧。
2. 对象定位 :通过简单的背景减法更精确地定位对象位置。
3. 特征提取 :由于图像尺寸有限,基于关键点的表示往往描述效果不佳,因此提取足够的随机点以保证更均匀的采样。
4. 描述符选择 :采用 SIFT 描述符对这些随机点周围的图像块进行建模,为每个图像获取一组单词。
5. 词汇构建 :运用 k - means 算法,遵循词袋方法构建全局词汇表,其中包含所有已知对象的 SIFT 描述。
6. 图像表示 :通过视觉单词的频率直方图来表示图像,为从图像中提取的每个随机点选择最相似的视觉单词作为最近邻。为便于后续数据处理,可进行归一化步骤。
1.2 回归模型
对象描述与抓取描述之间的映射对应于一个向量值回归问题。目标是估计一个从对象图像到传感器值的确定性映射,使其能够在新数据上进行泛化。
1. 问题定义 :给定输入 - 输出对的训练集 ${(x_i, y_i) : x_i \in R^p, y_i \in R^d} {i = 1}^n$,要估计函数 $f : R^p \to R^d$,其中
超级会员免费看
订阅专栏 解锁全文
984

被折叠的 条评论
为什么被折叠?



