RCNN

中科院自动化所2015年发表在AAAI上的论文Recurrent Convolutional Neural Network for Text Classification中提出了RCNN。之前就看过来神的狗池历险记,不过那时还没开始接触NLP不知道来神是研究这个的,当看到论文作者时就惊呆了,赶紧去和博客进行对比,确认大神本人无疑了,果然厉害的人在哪都厉害(づ ̄ 3 ̄)づ,博客地址https://licstar.net/archives/807#comments,大家都去凑凑人气呀。

言归正传,RCNN在词向量的基础上,分别学习词语左右上下文的向量,与词向量构成单词的新表达,然后经过一维卷积和池化后得到文本的向量表示,最后进行分类。

CNN对文本建模时filter大小不好确定,太小时会遗漏很多关键信息,太大时会使得参数过多,因此提出了RCNN。

左侧文本表示:,最左侧随机初始化一个向量,所有句子共享;

右侧文本表示:

### RCNN 深度学习算法介绍 #### 定义与背景 RCNN(Region-based Convolutional Neural Networks)是一种用于目标检测的方法,该方法结合了区域提议和卷积神经网络的优势。这种方法最初由Ross Girshick等人提出,并在《Rich feature hierarchies for Accurate Object Detection and Segmentation》这篇论文中进行了详细介绍[^4]。 #### 工作流程 RCNN 的工作流程可以分为几个主要阶段: 1. **候选区域生成** 使用Selective Search等无监督的方式从输入图像中提取大约2000个类别独立的候选框(region proposals),这些候选框覆盖了可能存在的对象位置和尺度变化。 2. **特征抽取** 对于每个候选框内的子图,调整大小到固定尺寸并送入预训练好的CNN(如AlexNet)获取深层特征向量。这一过程对于每张图片都需要重复约两千次,因此计算成本较高。 3. **SVM分类器应用** 利用支持向量机(Support Vector Machine, SVM)对上述得到的特征向量进行分类判断属于哪个类别的概率分布情况;同时还会有一个回归分支用来微调边界框的位置参数以更好地贴合真实标签。 4. **非极大值抑制(NMS)** 鉴于同一物体可能会被多个重叠较高的候选窗口捕捉到,所以最后一步是非最大抑制操作去除冗余预测结果只保留最有可能的那个矩形框作为最终输出。 #### 局限性分析 尽管RCNN取得了显著成果,但也存在一些局限之处: - 计算效率低下:因为要针对每一个候选区单独执行前向传播运算,整体耗时较长; - 存储需求高:需要保存大量中间层激活映射供后续步骤使用; - 复杂的数据准备环节增加了实现难度。 随着技术的发展,后来出现了Fast R-CNN、Faster R-CNN等一系列改进版本,在保持甚至提升性能的同时大幅降低了运行时间和资源消耗[^3]。 ```python import torch from torchvision.models.detection import fasterrcnn_resnet50_fpn model = fasterrcnn_resnet50_fpn(pretrained=True) model.eval() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值