- 博客(97)
- 收藏
- 关注
原创 【论文阅读】BoT-SORT: Robust Associations Multi-Pedestrian Tracking
作者来得很直接,就说他们用相机运动模型和优化卡尔曼做了个可以解决具有挑战的跟踪问题的算法:BOT-SORT;说他们在MOT17&20上表现是最好的。题目:BoT-SORT: Robust Associations Multi-Pedestrian Tracking。这部分相机运动补偿的工作StrongSORT也有做过,使用的是ECC方法;作者:Nir Aharon* Roy Orfaig Ben-Zion Bobrovsky。2)相机运动补偿方式改进bounding box的预测;
2024-08-13 16:49:17
545
1
原创 【论文阅读】YOLOv10: Real-Time End-to-End Object Detection
*NMS-free:**作者设计了2个lables assignments, one-to-one & one-to-many 两个标签分配策略。作者在训练的时候同事监督训练两个策略,在推理的时候用one-to-one,实现nms-free。来实现训练的时候one-to-one & one-to-many 的分配和计算,使one-to-one获得one-to-many最佳的效果。作者觉得YOLO系列的NMS和某些结构非常的耗时,提出NMS-free和一些列高效和低算力消耗的yolov-10.
2024-08-13 11:09:00
366
1
原创 why DW-Conv still slow?
MobileNet、ShuffleNet 在理论上速度很快,工程上并没有特别大的提升.为什么GPU上表现乏力的GPU,到CPU上反而一骑绝尘了呢?深度可分离卷积的总计算量变小了,但深度可分离卷积的层数变多了。若GPU的显存足够大,因为每层的计算都可以并行一次处理,则此时总运算时间的主导因素是网络的层数。...
2022-06-30 16:24:46
434
原创 【tricks: rep-parameters】
组合:3x3卷积核+BN,组合2:1x1卷积核+BN,组合3:BN。这三种组合在推理计算上都可以等效转化成“3x3卷积核+偏置”的形式。我们都知道卷积也是一种线性运算如乘法一样,咱们把三组同规格的卷积核合并成一组卷积核的操作是很简单的。.........
2022-06-30 15:32:22
197
原创 【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution
题目:Swin Transformer V2: Scaling Up Capacity and Resolutionmotivation:作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。method:首先,对大型视觉模型的实验揭示了训练中的不稳定性问题。作者发现,在大型模型中,各层之间的激活幅度差异显著增大。仔细观察结构可以发现,这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积,
2022-03-08 15:06:28
4274
原创 【论文阅读】ATSS:Adaptive Training Sample Selection
题目:Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selectionmotivation:作者想找到anchor base 和anchor free 的区别,并设计一种anchor选取的方法。method :分析下RetinaNet和FCOS在算法上的差异,主要有以下3点:RetinaNet在特征图上每个点铺设多个anchor,而FCOS在特征图上每个点
2022-02-28 15:09:39
235
原创 浮点数在计算机中的存储
F=S E M8.25 用二进制表示为:1000.011000.01 转换为科学计数法:1.0001 * 2^3任何一个数的科学计数法表示都为1. xxx * 2^n ,尾数部分就可以表示为xxxx,由于第一位都是1嘛,所以将小数点前面的1省略。E=127+e参考:https://www.cnblogs.com/wuyuan2011woaini/p/4105765.html...
2022-02-22 14:51:09
121
原创 c t c you should know
CTC 原理看了那么多的原理,觉得简单易懂的就这个:LOSS:如上图,对于最简单的时序为2的(t0t1)的字符识别,可能的字符为“a”,“b”和“-”,颜色越深代表概率越高。对于真实字符为空即“”的概率为0.60.6=0.36而真实字符为“a”的概率不只是”aa” 即0.40.4 , 实时上,“aa”, “a-“和“-a”都是代表“a”,所以,“a”的概率为:0.40.4 + 0.4 * 0.6 + 0.60.4 = 0.16+0.24+0.24 = 0.64所以“a”的概率比空“”的概率高
2021-12-13 17:17:02
1332
原创 【论文阅读】DBNet:Real-time Scene Text Detection with Differentiable Binarization
题目:Real-time Scene Text Detection with Differentiable Binarizationmotivation:文字检测算法可以大致分为两类:基于回归的方法和基于分割的方法。基于分割的方法先通过网络输出图片的文本分割结果,使用预设的阈值将分割结果图转换为二值图。使用阈值来判定前景和背景的操作,这个操作是不可微的,所以无法使用网络将该部分流程放入到网络中训练,本文通过学习threshmap和使用可微的操作来将阈值转换放入到网络中训练。作者想让二值化更牛逼。met
2021-12-02 17:04:29
3234
原创 AUC you should know
AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积.一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的 FPR 和 TPR ,将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。ROC曲线横坐标为假正率(FPR),纵坐标为真正率(TPR)。e.g...
2021-10-21 16:27:08
129
原创 【论文阅读】YOLO-X:Exceeding YOLO Series in 2021
题目:YOLOX: Exceeding YOLO Series in 2021
2021-08-05 11:52:15
7785
原创 【论文阅读】DETR (ECCV2020)|End-to-End Object Detection with Transformers
题目:End-to-End Object Detection with Transformers作者:Facebook AI – Nicolas Carion , Francisco Massa , Gabriel Synnaeve, Nicolas Usunier,Alexander Kirillov, and Sergey Zagoruykomotivation:作者想直接预测无序集合method:亮点我觉得有2:1)采用了transformer的模型架构;2)采用匈牙利算法的无序预
2021-07-28 17:51:04
545
原创 卡尔曼滤波
例如,n个人干n项工作的指派问题,如何让总的开销最小。首先知道其代价矩阵:from scipy.optimize import linear_sum_assignment cost =np.array([[4,1,3],[2,0,5],[3,2,2]])row_ind,col_ind=linear_sum_assignment(cost)print(row_ind)#开销矩阵对应的行索引print(col_ind)#对应行索引的最优指派的列索引print(cost[row_ind,col_
2021-07-28 16:06:40
150
原创 Aplicaction of DPL
行业应用计算机视觉的行业应用,已成熟产业化的主要有如下六个领域:(1). 安防监控领域,包括人脸识别、行为识别、运动跟踪、人群分析等等,利用卡口精准位置布控视频监测,实现了监控区域内异常的自动识别,例如动态视频中的人脸与黑名单库实时比对检测,多视点视频协同分析运行轨迹,视频数据结构化后对关键目标的检索等等;(2). 互联网娱乐场景,包括拍照优化、视频优化、实时人像美颜、AR特效、自定义背景等等,丰富了直播、短视频等互联网娱乐应用;(3). 金融身份认证场景,包括各种刷脸的金融应用,如远程开户、支付取
2021-07-12 17:37:07
221
原创 [论文阅读]YOLOF:You Only Look One-level Feature
题目:作者:motivation:YOLOF虽然和YOLO没啥关系,针对FPN做的一个工作,理论创新性还是蛮大的methods:experiments:
2021-06-21 10:37:10
270
原创 Docker you should know
build:使用当前目录的 Dockerfile 创建镜像,标签为 runoob/ubuntu:v1。docker build -t runoob/ubuntu:v1 .
2021-05-10 15:02:01
95
原创 [tricks] C o o r d C o n v
class AddCoords(nn.Module): def __init__(self, with_r=False): super().__init__() self.with_r = with_r def forward(self, input_tensor): """ Args: input_tensor: shape(batch, channel, x_dim, y_dim)
2021-04-16 11:14:21
268
1
原创 [tricks] G-r-i-d S-e-n-s-itive
Grid Sensitive:#Grid Sensitiveself.scale_x_y=1.05pxy = torch.sigmoid(ps[..., :2])pxy = self.scale_x_y * pxy - 0.5 * (self.scale_x_y -1.0)
2021-04-15 13:51:52
366
原创 [论文阅读]:PP-YOLO: An Effective and Efficient Implementation of Object Detector
题目:PP-YOLO: An Effective and Efficient Implementation of Object Detector作者:Xiang Long, Kaipeng Deng, Guanzhong Wang, Yang Zhang, Qingqing Dang,Yuan Gao, Hui Shen, Jianguo Ren, Shumin Han, Errui Ding, Shilei Wen(百度团队)motivation: 还是速度和效果不能兼得的问题,作者想兼得速度与效果
2021-04-13 17:39:35
572
原创 the way of DPL
CNN-卷积神经网络RNN-循环(递归)神经网络GAN-生成对抗网络AE-自编码器MLP-多层感知机DBN-深度置信网络BM-玻尔兹曼机
2021-03-11 16:19:31
111
原创 AARCH64移植答疑
pip install librosa?1、安装LLVM+CLONG下载LLVM解压 tar xJvf clang+llvm-X.0.0-aarch64-linux-gnu.tar.xz添加环境变量: add path: xxx/clang+llvm-X.0.0-aarch64-linux-gnu/bin
2021-01-27 15:31:16
636
3
原创 language model ,you should know...
1、N-Gram在深度学习之前最常用的技术是N-gram语言模型问题:N-gram的问题是训练资料仍然不足,会限制精度,即某种N-gram没有出现并不能代表它们出现几率是0,language model smoothing的技术可以用来解决这一问题解决方法:方法来源于推荐系统中的矩阵分解,通过最小化目标函数来估计单词向量,如果两个单词向量越接近,则这两个单词后面接某个单词的概率应相似,通过h向量和v向量相乘来计算连续语言模型中的表格中的值。连续语言模型和深度学习的关系,即相当于只有一层的神经.
2021-01-21 14:10:30
120
原创 self A t t e n t i o n , you should know...
由于seq2seq模型中,decoder 非常依赖encoder后的context.但context中的信息太多,不能针对性的生成正确的decoder.因此引入attention.Match函数可以自己设计,z1 是c0 输入到RNN后hidden layer的输出qj=WqZjq_j = W_qZ_jqj=WqZjki=Wkhik_i = W_kh_iki=Wkhivi=Wvhiv_i = W_vh_ivi=Wvhi[a1j,a2j,...,anj]=softmax([k1,k
2021-01-15 17:38:24
229
原创 T r a n s f o r m e r , you should konw...
首先被google提出的 transformer is all you need 中提出的。对于有时序的模型来说,RNN 是需要依靠前/后的信息,不能并行处理。Transformer 则采用CNN 替换rnn来实现并行处理。
2021-01-14 14:17:30
358
原创 AI-DPL, you should know
CV分类目标检测目标跟踪超分辨率图像还原(去噪、修复)图像分割(语义分割、 实例分割)NLP文本朗读(Text to speech)/语音合成(Speech synthesis)语音识别(Speech recognition)中文自动分词(Chinese word segmentation)词性标注(Part-of-speech tagging)命名实体识别(Named Entity Recognition)句法分析(Parsing)自然语言生成(Natural languag
2020-12-04 15:46:54
154
原创 [论文解读]ICCV 2019|LRF:Learning Rich Features at High-Speed for Single-Shot Object Detection
题目:Learning Rich Features at High-Speed for Single-Shot Object Detection作者:Tiancai Wang, Rao Muhammad Anwer , Hisham Cholakkal , Fahad Shahbaz Khan Yanwei Pang , Ling Shao 2Motivation:作者认为从头开始训练太慢,但又怕失去精度,因此提出在backbone旁边加一个LSN网络,合并两者优点;并且觉得top-down的网络,
2020-11-25 17:58:29
328
原创 MMdet 网络集简介
mmdet网络简介: [RPN]:采用select-search的方法生成候选框,并将每个候选框送入网络,并做分类,其计算量大。 [Fast R-CNN]:在RPNj基础上引入ROI pooling算法。 [Faster R-CNN]:在Fast-rcc基础上引入RPN算法。 [Mask R-CNN]:在 Faster R-CNN基础上引入ROI-aliment算法。 [Cascade R-CNN]: 采用了Cascade的骨架模型,使算法更高效。 [Cascade Mask R-CNN]:融
2020-11-02 13:53:56
8270
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人