Alice01010101-优快云博客

原创【无标题】

CAM是在神经网络可解释性研究中，对最后一层全连接层修改为GAP的，之后进行可解释性地定位研究。具体推导过程：计算方法如下图所示。对于一个CNN模型，对其最后一个feature map做全局平均池化（GAP）计算各通道均值，然后通过全连接层等映射到class score，找出argmax，计算最大的那一类的输出相对于最后一个feature map的梯度，再把这个梯度可视化到原图上即可。直观来说，就是看一下网络抽取到的高层特征的哪部分对最终的classifier影响更大。

2022-11-28 12:32:14 791

原创 2022-11-5学习记录

任务定义定义一：给出一段帧长为T的视频片段，将它们划分为l小段，并为每一小段分类。定义二：二分类语义分割任务。相关工作2.1 时序动作检测（定位）note：TAD/L和TAS的关系，可以类比目标检测和语义分割的关系。2.2 关键帧检测（Key-Frame Detection）复杂活动分类（Complex Activity Classification）2.3 序列分割任务（Sequence Segment Tasks）note：在时序上出更细粒度的框，不出语义标签；

2022-11-05 22:58:52 606

原创 2022-10-27学习记录

Segment-based representation:基于时序分割片段的表示时序片段在模型整个训练框架中，有三种不同的用法。作为anchors，中间proposals和final predictions。

2022-10-27 21:54:42 292

原创 2022-10-16学习记录

I3D主要是将2D CNN的网络扩展为3D CNN。为了检测搭建的模型是否正确，作者将2D网络中输入的一帧视频帧重复复制为多帧送入3D网络结构中（a boring video）,同时将2D filter的参数也复制粘贴n次，并将3D filter中的每个2D filter的参数w除以n，。这样使单张图片通过2D CNN的输出结果和设计的a boring video通过3D CNN的输出结果大小维度一致，检查它们最后的输出结果是否相同。

2022-10-16 21:43:10 962

原创 2022-10-8学习记录

Deformable DETR的整体结构图为：变为多尺度的特征提取，在attention module中增加了reference point和sampling offset两部分。其中主要的改变为下图中的attention模块，变为deformable attention模块，query只对周围部分做attention。

2022-10-09 09:13:30 870

原创周报2022-9-28

在Temporal Action Proposal Generation（时序动作提名生成）任务中，对于一段未剪辑的视频，其中代表视频的第t个RGB帧，是视频的总帧数，有时间动作实例集合作为注释，其中和分别代表动作实例的开始和结束时间。我们希望预测得到的动作提名集合能够尽可能地覆盖真实集合。BSN++文如其名，是对ECCV 2018上的BSN方法进行的改进。值得一提的是，BSN++的作者Haisheng Su也是BSN的原作者之一。

2022-09-28 22:00:27 337

原创 2022-9-19周报

在过去的几年中，基于anchor的Siamese算法成为了单目标跟踪的主流。这种设置固有的问题是：算法在训练时无法“看见”重合度较小的anchor，如果在测试时候分类分支将这样的anchor选为目标区域，那回归网络预测结果将非常差。Anchor-based最重要的提供先验，分类的正样本是在物体的中心；Anchor-free方法，物体边缘的点也需要做regression回归，这时候也要回归到物体上面。机器学习4种自动调参方法：网格搜索、随机搜索、贝叶斯优化和Hyperband。

2022-09-19 15:56:10 828

原创阅读书籍《深度学习之PyTorch物体检测实战》

Anchor可以看做是图像上很多固定大小与宽高的方框，由于需要检测的物体本身也都是一个个大小宽高不同的方框，因此Faster RCNN将 Anchor当做强先验的知识，接下来只需要将Anchor与真实物体进行匹配，进行分类与位置的微调即可。相比起没有Anchor的物体检测算法，这样的先验无疑降低了网络收敛的难度，再加上一系列的工程优化，使得Faster RCNN达到了物体检测中的一个高峰。其次，由于涉及分类中的全连接网络，因此输入尺寸是固定的，造成了精度的降低；

2022-09-02 17:02:00 1601

原创阅读论文：SiamFC&ATOM&DiMP

SiamFC开创了将孪生网络结构应用在目标跟踪领域的先河，显著提高了深度学习方法跟踪器的跟踪速度，之后的相关深度学习跟踪器的方法也大多基于此方法进行改进和优化。所以该方法与KCF地位相近，都具有一定的里程碑意义。...

2022-08-26 11:47:26 681

原创阅读目标检测综述论文

单阶段基于anchor的方法，包括SSD及其变体、YOLO及其变体、以及RetinaNet等，它们直接对anchors和GT进行匹配来输出预测结果。而两阶段的方法，在对输入的图像提取特征之后，还需要经过region proposals进一步缩小采样空间。在上图中，两阶段方法的差异主要表现在Anchor/RoI set之后首先利用其他的网络（例如RPN网络等）对object proposals进行提取。...

2022-08-18 16:48:44 1471

原创周报2022-8-4

特色：多模态论文，去除掉目标检测领域的Region Feature。在ViT之前，针对图像像素的处理，VLP主要选择目标检测器，使密集的图像像素生成为特征性强、离散化的表示。ViLT核心思路为参考ViT，将图像划分为patch，通过线性映射的方式将patch转换为embedding，避免繁琐的图像特征抽取的过程。建议：读近期论文future work看是否有坑可以填。...

2022-08-04 20:26:19 232

原创 2022-7-27周报

深度神经网络能够学习强大的表示来解决复杂的视觉任务，但会暴露出诸如过拟合问题之类的不良特性。为此，图像增强等正则化技术对于深度神经网络的泛化是必要的。尽管如此，大多数流行的图像增强方法都将自己局限于现成的线性变换，如缩放、翻转和颜色抖动。由于它们的手工属性，这些增强不足以生成真正的难增强示例。在本文中，作者提出了一种新的增强视角来规范训练过程。受最近成功将掩蔽图像建模（maskedimagemodeling）应用于自监督学习的启发，作者采用自监督掩蔽自动编码器来生成输入图像的失真视图。...

2022-07-27 18:00:14 393 1

原创 DINO&PAWS

讲解链接：https://sh-tsang.medium.com/review-dino-emerging-properties-in-self-supervised-vision-transformers-cfddbb4d35491.1 整体框架：1.1 整体结构1.2 损失函数设计

2022-07-14 18:50:34 456

原创 YOLOX

YOLOX是以YOLOv3-SPP作为baseline，主要从三个方面进行改进。参考https://zhuanlan.zhihu.com/p/392221567。相比较于非解耦的端到端方式，解耦能带来4.2%AP提升，并加快收敛速度。模型结构： yolov3中，针对coco80类的检测任务，每一个anchor会对应产生hw85维度的预测结果，其中cls（区分是前景背景）占用1个通道，reg（坐标）占用4个通道，obj（预测是80类中的哪一个类）占用80个通道。而YOLOX首先使用11卷

2022-07-07 18:21:43 1194 1

原创 YOLO vs SSD

R-CNN等一系列算法。主要思路是首先通过启发式方法（selective search）或者CNN网络（RPN）产生一系列稀疏的候选框，然后对这些候选框进行分类与回归。特点是准确度高。如YOLO和SSD。主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，之后利用CNN提取特征后进行分类与回归。特点是速度快，但是均匀地密集采样的一个缺陷在于正样本（分类目标）和负样本（背景）不均衡，导致模型准确率低（参见Kaiming的Focal Loss）。 SSD的全称为Single Shot

2022-06-09 21:46:33 5710

原创 Git错误解决

Git常见错误解决https://blog.youkuaiyun.com/u014361280/article/details/109703556

2022-03-19 16:18:31 137

翻译 Swin-Transformer学习整理

Swin-Transformer学习整理Swin-Transformer相比于之前的ViT等模型，最大的特点有两点：运用patch-partition和patch-merging，进行多尺度特征提取。ViT复杂度为O(n^2)，Swin-Transformer复杂度为O(n)。观看B站up主“跟李沐学AI”下两位老师的视频问答，觉得非常有深度，遂整理下来以便复习。视频地址 https://www.bilibili.com/video/BV13L4y1475U?spm_id_from=333.9

2022-03-03 00:04:08 2186 1

原创 Chemical-Reaction-Aware Molecule Representation Learning 阅读笔记

Chemical-Reaction-Aware Molecule Representation Learning阅读笔记问题一：使用pysmiles对Smiles格式数据的具体处理过程1. **SMILES格式**2. **SMILES在REACTION中的写法**3. 论文中的实际处理问题二：输入模型时的维度匹配问题问题一：使用pysmiles对Smiles格式数据的具体处理过程1. SMILES格式1.1 在SMILES表达式中，往往会去掉H元素，比如甲烷CH4用SMILES表达式来表达的话就是C

2021-12-18 09:20:42 480

原创 Task04 LeeML P13

李宏毅机器学习P13深度学习简介深度学习的三个步骤深度的理解整个神经网络的本质--通过隐藏层进行特征转换手写数字识别举例思考隐藏层越多越好？普遍性定理深度学习简介深度学习的三个步骤Step1：神经网络（Neural network）Step2：模型评估（Goodness of function）；常用损失函数进行评价Step3：选择最优函数（Pick best function）；通常使用梯度下降的方法深度的理解2012 AlexNet：8层2014 VGG：19层2014 Go

2021-11-22 15:17:29 1921

原创 Task03 LeeML P5-8

李宏毅机器学习P5-8P5 误差从哪来偏差-方差的选择Underfitting--Large Bias, Small Variance 偏差大，欠拟合Overfitting--Small Bias, Large Variance 方差大，过拟合Cross ValidationN-fold Cross ValidationP6 梯度下降自适应学习率P5 误差从哪来误差的期望值=噪声的方差+模型预测值的方差+预测值相对真实值的偏差的平方E((y−f^(x))2)=σ2+Var[f^(x)]+(Bias[f

2021-11-20 17:25:10 210

原创 Task02 LeeML P3-4

李宏毅机器学习P3-4P3 回归回归定义应用举例模型步骤重点关注梯度下降梯度下降在实际应用中存在的问题P4 回归演示P3 回归回归定义Regression就是找到一个函数function，通过输入特征x，输出一个数值Scalar。应用举例股市预测（Stock market forecast）输入：过去10年股票的变动、新闻咨询、公司并购咨询等输出：预测股市明天的平均值自动驾驶（Self-driving Car）输入：无人车上的各个sensor的数据，例如路况、测出的车距等输出：方向盘的

2021-11-17 20:28:04 212

原创 Task01 LeeML P1-2

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2021-11-16 17:04:41 75

weixin_43856821的博客