
计算机视觉
sunrise_ccx
生活是多么芬芳
展开
-
Grad-CAM 和 CAM
CAM,即class activation map,类别响应图。grad的意思是梯度。二者都是为了可视化:特征图对于某一类别的响应情况(特征图每一个位置对于指定类别的响应值)。CAM只是Grad-CAM的一种特例:在最后一个特征图之后使用全局平均池化和一个线性层做分类。这种特定场景下,计算最后一层的特征图上的类别相应图。这个在Grad-CAM原文中有严格的证明。虽然这说明Grad-CA...原创 2020-01-13 23:17:03 · 2742 阅读 · 0 评论 -
针对大类别分类实验的一些记录
最近在对10750个汉字做分类,使用resnet50为基本框架,分类部分多加了一个线性层,每个汉字作为1类。损失函数是交叉熵函数。类别太多的话,网络一开始不易学习到。使用sgd的话好像根本没法学习。我使用Adadelta (lr=0.01) 从头开始训练,虽然结果可以达到92%,但是查看网络输出的得分发现值相当异常,全部都是小于-30,000。这也导致了最后的分类层的梯度值相当大,最终导致...原创 2019-04-16 21:33:06 · 245 阅读 · 0 评论 -
中文图片的文本行识别心得
中文相比于英文,有个显著特点就是字符很多。如果不考虑偏旁部首构成,文字的分类数会有几千几万。这种情况下如果从头训练(随机初始化),单个字符识别的训练过程尚且不容易(参考博客,还是可以训练好的),基于attention的encoder-decoder方法就更困难了,因为它还包含一个计算attention的定位过程。我曾尝试从头训练一个基于attention的encoder-decoder方法...原创 2019-05-13 23:52:51 · 1068 阅读 · 0 评论 -
合成文字图片数据集的注意事项
1. 保证测试集出现的字符在训练集都出现;2. 建议使用lmdb存储,除了图像和label信息,还要记录一些关键数目信息;3. 对汉字要做繁简体字检查,以便正确使用字体或者其他;4. 避免出现gt信息缺失的情况。...原创 2019-05-31 14:06:36 · 774 阅读 · 1 评论