- 博客(103)
- 资源 (2)
- 收藏
- 关注
原创 基于Mamba和状态空间模型(SSM)的多目标跟踪算法实现
此仓库是以下基于Mamba的多对象跟踪器的非官方实现:(这两篇论文尚未发布官方代码)ACM MM’25。
2024-12-24 13:27:22
1250
5
原创 [论文阅读笔记35] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation 代码精读
Tune-A-Video通过One-shot的方式, 也就是, 需要对每个你希望编辑的视频, 都需要训练一次. 训练过程只需要待编辑的视频, 不需要其他的, 因为相关的world knowledge是由预训练的Stable Diffusion提供的.既然是视频生成, 那就必须要约束生成帧的时间一致性. 因此就通过重新设计注意力机制的形式让temporal之间也进行注意力计算, 从而维持一致性. 模型的总框图如下:下面通过数据读取, 模型细节, 训练过程, 推理过程四部分对代码进行解读。
2024-09-05 20:37:06
1120
4
原创 [翻译+笔记] 用于视频生成的Diffusion Model
这次翻译+笔记的博客是https://lilianweng.github.io/posts/2021-07-11-diffusion-models/在阅读这篇博客前, 推荐先对Diffusion Model进行了解. 可以看我的笔记: https://blog.youkuaiyun.com/wjpwjpwjp0831/article/details/141524088视频相关的任务向来是比图像更有挑战性, 这是因为视频除了空间域之外, 还有时间域, 并且还要保证时空连续性, 来达到合理的结果. 此外, 对于视频任务来说
2024-08-30 17:23:30
1404
原创 [翻译+笔记] Score-based generation: 通过数据分布的梯度进行生成建模
本次翻译+笔记的是Yang Song博士的博客. Yang Song博士提出了一系列的score-based的生成模型, 并对后续Diffusion model也产生了很深远的影响.
2024-08-29 10:11:40
1067
原创 [翻译+笔记] 什么是Diffusion模型?
原博客地址为https://lilianweng.github.io/posts/2021-07-11-diffusion-models/该笔记是[翻译+笔记]GAN和[翻译+笔记]VAE的续集.之前的生成模型或多或少都有一些缺陷, 例如, GAN的训练不够稳定, VAE的训练实际上要依靠一些代理损失, 并不直接作用在网络上, 而流模型需要用特定的结构来实现取逆的操作.Diffusion模型是基于非平衡热力学的, 其定义了一个Markov过程来给原始数据逐步加噪, 然后学习从噪声中恢复样本. 和VAE不同,
2024-08-26 11:34:29
1143
原创 [论文阅读笔记34] LISA (LISA: Reasoning Segmentation via Large Language Model) 代码精读
LISA是一个很好的Reason Segmentation的baseline, 其利用特殊的token [SEG]来微调多模态LLM和SAM的decoder来实现复杂逻辑下的prompt的推理分割. 其整体框图如下, 本篇文章精度此代码并作简单复现.
2024-08-06 14:12:15
1586
6
原创 [论文阅读笔记33] Matching Anything by Segmenting Anything (CVPR2024 highlight)
MOT的本质是在帧间进行同一个目标的稳定关联。现有的MOT主要依赖于特定domain的数据集(比如行人MOT challenge,车辆VisDrone等),限制了cross domain的泛化性。针对这个问题,作者提出了MASA,可以实现在任意域中跟踪任意目标。具体来说,利用SAM能够给出的丰富的目标分割,MASA的任务就是通过data augmentation学习一个instance level的对应。
2024-06-27 16:40:55
2556
1
原创 [论文阅读笔记32] Object-Centric Multiple Object Tracking (ICCV2023)
无监督的object-centric learning(OCL)可以将场景划分为多个object,而无需进行先验的定位(例如pretrain的detector)。这正好可以解决MOT标注信息繁多、困难的问题。空间上,OCL没有正确认识整个物体的语义信息,导致物体往往被划分成了很多parts时间上,OCL也无法准确地维护帧间连续性。
2024-06-22 17:09:06
1515
1
原创 [论文阅读笔记31]Mamba (Selective Structured State Space Model) 及其应用
现有的基础模型都是以Transformer结构作为核心组建的。然而,Transformer中的注意力是二次方的复杂度,为了降低这个复杂度,一些线性注意力、门控卷积(gated convolution)和循环网络,以及状态空间模型(structured state space models,SSM)被提出,然而它们在一些重要的模态,例如语言中的性能并没有达到和Transformer中attention相媲美的程度。
2024-05-26 18:57:33
5234
2
原创 [InternLM训练营第二期笔记]7. OpenCompass 大模型评测实战
该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第七节课,学习大语言模型评测的基本概念,以及评测系统OpenCompass的使用。
2024-04-25 17:18:49
444
原创 [InternLM训练营第二期笔记]6.Lagent & AgentLego 智能体应用搭建
继承 BaseTool 类修改 default_desc 属性(工具功能描述)如有需要,重载 setup 方法(重型模块延迟加载)重载 apply 方法(工具功能实现)下面我们实现一个调用 MagicMaker 的 API 以实现图像生成的工具。class MagicMakerImageGeneration(BaseTool): # 第一步 继承BaseTool类。
2024-04-25 14:10:35
959
原创 [InternLM训练营第二期笔记]5. LMDeploy 量化部署 LLM 实践
KV Cache是一种缓存技术,通过存储键值对的形式来复用计算结果,以达到提高性能和降低内存消耗的目的。在大规模训练和推理中,KV Cache可以显著减少重复计算量,从而提升模型的推理速度。理想情况下,KV Cache全部存储于显存,以加快访存速度。当显存空间不足时,也可以将KV Cache放在内存,通过缓存管理器控制将当前需要使用的数据放入显存。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。
2024-04-24 23:31:24
1159
原创 [InternLM训练营第二期笔记]4. XTuner 微调 LLM:1.8B、多模态、Agent
微调的目的是为了让foundation模型在特定的领域更好地发挥作用。增量预训练与指令跟随。其中,增量预训练的意思是继续训练,加入领域内的一些特定的知识。这个过程是无监督的,不需要人为制造高质量对话。而指令跟随微调,是让模型学会对话模板,因此是有监督的,数据是高质量的问答数据。
2024-04-20 15:42:30
1177
原创 [InternLM训练营第二期笔记]3. “茴香豆“:零代码搭建你的 RAG 智能助理
该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第三节课,学习RAG的基本概念,以及对于开源RAG应用“茴香豆”进行部署。
2024-04-10 21:48:39
1240
原创 [论文阅读笔记30] (AAAI2024) UCMCTrack: Multi-Object Tracking with Uniform CMC 详细推导
在多目标跟踪中,相机不规则运动一直是一个难题,这是因为相机的快速运动会导致目标在画面中的位置发生突变,这样就很难再和过去的轨迹关联起来。一种办法是采用相机运动补偿(Camera Motion Compensation)方法,但是现有的利用CMC的方法速度都是比较慢的。为了解决这个问题,作者提出了一种新的Kalman Filter的方式,即将目标的运动状态与地面联系起来(地面就是画面中真实的地面,我认为这才是这篇论文核心的contribution。
2024-04-08 23:20:47
2572
11
原创 [InternLM训练营第二期笔记]2. 轻松分钟玩转书生·浦语大模型趣味 Demo
该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第二节课,完成对话、多模态等demo,形成对InternLM的初步了解。
2024-04-04 09:45:34
1034
原创 [InternLM训练营第二期笔记]1. 书生·浦语大模型全链路开源开放体系
当前,人工智能的发展趋势是从专用模型到通用模型迈进。专用模型往往是解决一个特定的问题,而通用模型可以结合多种模态,完成多种任务。当前,InternLM模型已经完成了多轮的迭代,并在今年的1月,正式升级成为InternLM2:InternLM2目前已经开源了7B和20B的两个规格,而每个规格包含了三种模型的版本。InternLM2-Base相当于一个模型基准,通过对Base在各个方向上进行强化,就得到了InternLM。在Base的基础上,经过SFT(
2024-03-30 17:26:13
1112
原创 [杂记]mmdetection3.x中的数据流与基本流程详解(数据集读取, 数据增强, 训练)
之前跑了一下mmdetection 3.x自带的一些算法, 但是具体的代码细节总是看了就忘, 所以想做一些笔记, 方便初学者参考. 其实比较不能忍的是, 官网的文档还是空的…这次想写其中的数据流是如何运作的, 包括从读取数据集的样本与真值, 到数据增强, 再到模型的forward当中.
2024-02-19 22:21:02
1885
2
原创 [论文阅读笔记29]MOT+CLIP: Generalizing MOT to Unseen Domains by Introducing NL Presentation
继CLIP大火之后, 许多基于CLIP的工作都应用在各种各样的视觉下游任务中, 例如检测, 分割, 风格迁移, 视频动作识别, 视频文本检索等等. 跟踪也不例外, 今天想对这篇文章做一个笔记, 据我所知应该是第一篇将MOT与CLIP结合的文章, 用以通过对目标更高阶的信息表示(也就是自然语言表示)来解决域适应的问题(因为如果将一个目标描述为"穿着红衣服的人", 那么这种目标不论在哪个数据集中都具有相似的特征).论文: Generalizing multiple object tracking to unse
2024-02-05 10:57:58
1275
8
原创 [论文阅读笔记27]Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking
在MOT任务中, 遮挡一直是一个有挑战性的问题. 遮挡不仅会降低检测效果, 导致轨迹碎片化, 还会影响Re-ID的精度. 为此, 我们提出了ORCTrack解决遮挡问题. 具体地, 我们提出了一个关注遮挡的注意力模块(Occlusion-Aware Attention Module), 这个模块的目标是突出目标特征, 抑制背景特征, 进而提升检测器对潜在被遮挡目标的精度. 此外, 我们还设计了基于最优传输的Re-ID特征匹配模块, 目的是利用帧间的互补性对Re-ID特征进行增强和校准.
2023-10-05 10:54:06
1499
2
原创 [论文阅读笔记26]Tracking Everything Everywhere All at Once
传统的光流或者粒子视频跟踪方法都是用有限的时间窗口去解决的, 所以他们并不能很好的应对长时遮挡, 也不能保持估计的轨迹的全局连续性. 为此, 我们提出了一个完整的, 全局的。
2023-08-26 17:36:16
4331
2
原创 [论文阅读笔记25]A Comprehensive Survey on Graph Neural Networks
对于图像数据来说, CNN具有平移不变性和局部连接性, 因此可以在欧氏空间上良好地学习. 然而, 对于具有图结构的数据(例如社交网络 化学分子等)就需要用GNN来学习.最早期的GNN网络是遵循类似RNN的循环迭代式的(RecGNN), 主要的对象是DAG(有向无环图). 这个方式停止的条件是节点的表示趋于稳定.
2023-08-26 09:23:49
1428
原创 [论文阅读笔记24]Social-STGCNN: A Social Spatio-Temporal GCNN for Human Traj. Pred.
行人轨迹预测是一个比较有挑战性的任务, 有着许多的应用. 一个行人的轨迹不仅是由自己决定的, 而且受其周围目标的影响. 过去的方法都是学习每个行人自己的运动状态, 然而本文的方法是用一个GNN对整个场景的行人之间的interaction进行建模. 本文提出的方法叫Social-STGCNN, 是在STGCNN(一个基于骨架的action recognization的方法) 的基础上拓展到轨迹预测任务中的.
2023-07-24 21:00:41
2057
3
原创 [论文阅读笔记23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone
题目当中有三个关键词, 对应了本篇文章的三个关键点: Adaptive, Global和Faster. 作者针对小目标检测的稀疏卷积的问题, 做出了两个改进: 自适应mask比例, 和上下文增强.第一句: 背景+意义. 强调UAV下的目标检测很重要, 速度也很重要.第二句: 引出本篇论文的研究对象, 即稀疏卷积. 稀疏卷积可以平衡精度与速度.第三句小目标情况下上下文信息的不充分+不同尺度下mask比例难以控制.第四句本文propose了什么, 针对问题1是如何做的, 问题2是如何做的。
2023-07-20 10:47:57
1878
12
原创 [论文阅读笔记22]Identity-Quantity Harmonic Multi-Object Tracking
通常的MOT算法在匹配阶段时, 都是通过线性指派问题求解, 即会计算一个代价矩阵, 例如代价矩阵的行表示轨迹, 列表示检测, 元素代表轨迹与检测之间的相似度. 往往是通过匈牙利算法等求解出代价矩阵的最佳匹配. 但是这都基于一个前提, 即对于代价矩阵C∈Rm×nC∈Rm×n的匹配结果A∈01m×nA∈01m×n, 满足∑i1nAki1∀k1m∑i1mAik1∀k1ni1∑nAki1∀k。
2023-04-09 12:41:35
901
2
原创 [论文阅读笔记21]Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?
长时跟踪是一个经常被忽略的问题. 对于大于三秒钟的轨迹丢失, SOTA的跟踪器中只能恢复不到10%的轨迹. 轨迹丢失的时间越长, 其搜索空间(也就是之后可能的位置)就越大, 因此本文用轨迹预测的方式减少丢失轨迹的搜索空间, 提高精度.
2023-03-28 11:11:03
707
7
原创 [论文阅读笔记20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking
这篇文章着力于解决长时设计了一个交互模块(Interaction Module), 来学习短轨迹之间的相互作用. 简单来说, 就是根据目标相邻两帧的的偏移, 计算出一个表征目标之间相互影响的矩阵, 随后利用该矩阵经过一个GCN和MLP来直接得到目标的预测位置(代替Kalman滤波).设计了一个恢复模块(Refined Module), 用来拼接碎片化的轨迹. 对于没有匹配成功的检测和丢失的轨迹, 计算他们之间的速度-时间关系, 并保留匹配程度高的组合.
2023-03-27 21:58:58
3828
10
原创 [论文阅读笔记19]SiamMOT: Siamese Multi-Object Tracking
本文提出了一个孪生(Siamese)式的MOT网络, 该网络用来估计帧间目标的运动. 为了探究运动估计对多目标跟踪的影响, 本文提出了两种运动建模方式: 显式和隐式. 本文在一些数据集上取得了良好的结果.
2023-02-22 21:33:48
1039
1
原创 [杂记]算法: 并查集
我们考虑如何计算一个图连通分量的个数. 假定简单无向图G有两个连通分量(子图)G1G2, 如下图所示:一个很自然的想法是, 要想求连通分量个数, 我们可以使用Full-DFS算法, 也就是我们从某个点开始深度优先搜索, 并标记访问过的元素. 随后挨个顶点判断, 如果某个点没有被访问过, 则接着从该点进行深度优先搜索,除此之外, 我们还可以用并查集来求图中连通分量的个数. 并查集, 顾名思义, 有并与查两部分.
2023-01-13 10:23:56
643
原创 踩坑记录2——RK3588跑通YOLO v5+DeepSORT
上篇说到RK3588编译OpenCV, 这篇记录一下跑通YOLO v5+DeepSORT的愉(chi)快(shi)历程.
2022-12-29 09:53:50
6674
31
原创 [翻译+笔记]变分自编码器:从AutoEncoder到Beta-VAE
自编码器是用来重构高维数据的,它利用一个有bottleneck层的神经网络。bottleneck层获取压缩的潜在编码,这样将嵌入向量以低维表示可以应用在许多地方,例如搜索,数据压缩,或揭示数据潜在的生成因素。记号意义DD数据集 大小为nx(i)x^{(i)}x(i)数据集中的样本,维数为dxxx数据集中的样本x′x'x′xxx的重建版本x~\tilde{x}x~xxx经噪声腐蚀的版本zzzbottleneck学习到的压缩编码aj(l)a_j^{(l)}a。
2022-12-24 11:02:34
1542
原创 [翻译+笔记]生成对抗网络: 从GAN到WGAN
最近读了一篇社会力模型的论文, 里面用到了GAN, 发现自己不是很懂. 想翻译一下一个大神的博客, 做一下笔记. 并不是全文翻译, 只翻译一部分.原文地址: from GAN to WGAN在介绍GAN之前, 首先复习一下衡量两个概率分布相似度的两种指标.(1) K-L散度: KL散度衡量了某个概率分布ppp是取自(发散自, 来自)另一个期望的(理论的)概率分布qqq的程度:DKL(p∣∣q)=∫xp(x)logp(x)q(x)dxD_{KL}(p||q)=\int_xp(x)\log{\frac{p(x
2022-12-21 16:50:44
695
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人