前言、相关知识
1.闭集和开集
- 开集:识别训练集不存在的样本类别。
- 闭集:识别训练集已知的样本类别。
2.多模态信息融合
文本和图像,文本的语义信息映射成词向量,形成词典,嵌入到n维空间。
图片内容信息提取特征,形成n维向量,嵌入到n维空间。
文本和图像的特征距离要尽量近一点,这样文本信息和图像内容信息特征相似。可以根据一种模态输入获得另一模态类型的输出。
3. 计算机视觉任务
- 分类问题
- 语义分割
- 物体检测
- 示例分割
一、目标检测基础知识
1. 目的:输入彩色RGB图像,输出检测的物体。
2. 过程:分类+定位
3. 最新的目标检测技术:文本 + 图像,制定类别检测
4. 现有方法分类:
1. 一步法(SSD、YOLO):仅使用一个卷积神经网络CNN直接预测不同目标和位置
2. 两步法(R-CNN、Fast R-CNN、Faster R-CNN)
step1:先生成候选框(利用Region Proposal Network(RPN))
step2:根据候选框分类+精调
二、目标检测——R-CNN(regional with cnn feature)

R-CNN算法步骤<