- 博客(218)
- 收藏
- 关注
原创 videoLDM:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models论文阅读
文章在两个主要任务上验证了Video LDM的性能:高分辨率真实驾驶场景视频合成和基于文本的视频合成(text-to-video)。在已有的2d的生成模型基础上,插入conv3D和时间维度注意力机制。利用已有的图片生成模型的权重。
2025-04-02 14:26:56
838
1
原创 sora技术报告Video generation models as world simulators
transformer可以很好的scale,随着scale的增加,生成的效果越来越好。使用视频的原始分辨率进行训练,有助于好看的构图生成。使用GPT将用户的短prompt扩充为复杂的长prompt,提升生成效果。在文字prompt的基础上,还可以增加图片、视频的参考。sora结合Sdedit,可以对视频进行编辑,比如风格转换,环境转换。时空的隐patches,即视频压缩后的结果。图片可以看出单帧的视频。sora参考了DALL*3对视频生成文本描述的方式。- 连接两个视频,对两个视频的内容做插值。
2025-04-02 10:34:35
517
原创 Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance论文阅读
由于重新定义的掩码通常比原始掩码大,这可能会限制生成的角色必须小于给定的掩码。具体方法是提取角色和交互对象,并根据其掩码进行随机缩放操作,然后将缩放后的内容重新组合回源视频。其中,F表示Conv2D-Sigmoid层,z_blend表示空间混合后的新的噪声潜在变量。:对于噪声潜在变量 和对象潜在变量将它们的特征连接起来,并通过一个Conv2D-Sigmoid层计算alpha权重。:在训练过程中,随机高斯噪声 被逐步添加到不同时间步的图像潜在变量 z_t 中。给参考图和视频,替换视频中的人物。
2025-03-27 16:39:31
830
1
原创 diffusion基础汇总
大一统视角理解扩散模型Understanding Diffusion Models: A Unified Perspective 阅读笔记 - 中森的文章 - 知乎。DDIM:从数学原理的另一个角度,重新推到,摒弃了马尔可夫过程,使得t步不依赖t-1步,加快了采样。加噪的过程理解为把所有图片压缩为一个高斯分布。所以随机采样一个噪声进行去噪就可以还原为某一个图片。DDPM:一个马尔可夫链,逐渐加噪去噪。通过随机微分方程的角度去理解扩散模型。类似雕塑家从一个石头雕刻出一个雕像。苏神:生成扩散模型漫谈系列。
2025-03-13 09:52:58
167
原创 LDM——High-Resolution Image Synthesis with Latent Diffusion Models论文阅读
高分辨率复杂图像的合成主要基于AR以及GAN,GAN的效果更好一些,但是对抗学习优化难,难以scale,导致无法扩展更大的模型复杂度,建模的复杂度有限。:计算复杂度高,生成过程是顺序的,限制了其在高分辨率图像上的应用(单步逐像素生成,下一个像素依赖上一个像素,无法并行)。分离训练阶段(先训练自编码器,再训练扩散模型),确保了在潜在空间中进行很好的重建,不需要对潜在空间进行过多的正则化。训练一个自编码器(autoencoder),将高维的像素空间映射到一个低维的潜在空间,同时保留了图像的感知信息。
2025-03-12 15:14:27
824
1
原创 CUDA version ERR!或者RuntimeError: Unexpected error from cudaGetDeviceCount().
删除动态连接库/usr/local/cuda-12.5/targets/x86_64-linux/lib里面多的一些库就可以了。现象nvidia-smi可以正常显示,但是多了一个 CUDA version ERR!重新装nviida-smi也不能解决问题。原因:lib多了一些东西。
2025-03-04 16:47:05
124
原创 ddpm数学原理
然而,因为原始的生成过程包含了随机性(通过噪声的增加),所以在恢复过程中也需要引入相应的随机性来模仿这个噪声。这样,我们就能够遍历所有可能的噪声路径来找到对应于我们想要生成的数据的路径。变分推理的核心:用一个分布估计一个没有表达式的分布。alpha是自定义的参数。类似语言模型中的beam search作用,概率最大的不一定是最好的。进一步带入x0发现至于xt相关!假设diffusion的去噪声模型输出的分布符合高斯分布。通过变分推理,把最小化kl散度转化为最大化q的期望。假设生成的p的分布是高斯分布。
2025-03-03 19:41:20
261
原创 为什么很多都符合正态分布
理论解释:中心极限定理(central limit theorem)的随机变量,即使原始变量本身不是正态分布,标准化样本均值的抽样分布(求和取平均)趋向于标准正态分布。
2025-02-27 10:52:42
223
原创 Interactive High-Quality Green-Screen Keying via Color Unmixing
为了解决色溢问题,作者加了一个后处理,通过提高alpha数值到1。视频中的第一帧进行交互,画出基颜色(算出均值和方差)。假设视频稳定,第一帧的颜色模型可以用于其他帧。单图光照变化,引起颜色变化,提取的前景就会变化。ibk等工具2小时,本文约10分钟(微调局部颜色模型)假设图片由m个基础颜色构成,每一个基础颜色符合正态分布,基础颜色由用户交互式选择,分布参数通过算法求取。本文目标:求所有基础颜色模型的正太分布参数。如果背景复杂,少量的基础颜色不能很好的表达。评测估计效果,计算基础颜色马氏距离。
2025-02-20 19:24:41
249
原创 Robust High-Resolution Video Matting with Temporal Guidance论文解读
输出1/2,1/4, 1/8, 1/16下采样的特征。优点:一个优秀的用于人体视频matte的开源工作。同时预测了alpha和分割。使用的DGF用于高分辨率视频。在视频matte任务中引入时间信息,设计了一个rnn模块convGRU提取时间信息。特征提取encoder,回归式的encoder,基于dgf的高分辨率上采样模块。模型参数量最小,显存占用少一点,但是速度比modnet慢一点(因为有rnn)4个V100,分4阶段训练。缺点:训练过程十分繁琐。
2025-02-05 17:00:32
309
原创 MODNET论文解读
通过在其他数据上自监督的训练。让模型的3个输出彼此之间的边界信息对齐。(因为前景的人是固定的,换了domain,也就是背景,一般就是边界学习的不太好,所以要保证边界对齐),细节loss加了一个与原模型做对齐。如果前一帧与后一帧相似,与本帧不相似,则说明本帧闪烁,取前后帧的均值作为本帧的结果。卷积神经网络,分为3个模块,小分辨率目标分割、细节预测、alpha预测。分割gt通过alpha下采样+blur获取,细节只关注边界loss。因为目标定义明确,才能trimap-free。本质还是图片matte。
2025-01-20 17:22:14
171
原创 ViT论文细节
参考:https://www.bilibili.com/video/BV15P4y137jb?纯卷积模型、纯transformer模型和先卷积,再transformer(没有patch,在16倍降采样以后就一致了)的混合模型比。数据量增大以后混合模型就和纯transformer差不多了,开始的时候混合模型是最好的,但是都比卷积模型好。其余学习到的全是全局的attention。用于代表这张图的整体特征,位置设定为0,可以学习的768维度特征,最后就是用这个特征接fc,和分类头做loss学习用的。
2025-01-13 15:15:21
377
原创 cuda版本管理
背景,不同的项目需要不同的cuda版本。如一个需要cuda12, 一个需要cuda11。系统已经有一个cuda12了,那可以再安装一个cuda11, 然后通过切换版本进行管理。
2024-10-21 14:17:21
286
原创 sam2细节解析
模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。
2024-10-15 17:31:34
538
原创 Image matting入门
Deep Image Matting:A Comprehensive Surveyhttps://www.zhihu.com/question/68146993/answer/2791899921https://github.com/michaelowenliu/awesome-image-mattinghttps://www.alphamatting.com/eval_25.phphttps://paperswithcode.com/task/image-matting
2024-09-20 10:02:59
587
原创 OPENAI O1总结Learning to Reason with LLMs
OpenAI 01在编程问题(Codeforces)上排名超过89%的人,在美国数学奥林匹克(AIME)预选赛中排名前500位,在物理、生物和化学问题(GPQA)的基准上超过了人类博士水平的准确性。参考:https://openai.com/index/learning-to-reason-with-llms/通过强化学习训练,O1推理时利用思维链,可以自动找到cot策略、纠正错误、简化推理步骤、再错误时换另一个思维链。和gpt4o相比,在编程、数据分析、数学计算等大幅领先gpt4o。所以这是一个偏科生。
2024-09-18 11:46:38
846
原创 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读
当前的LLMs能够处理100,000个token的输入,但在难以生成超过2,000个词。实验发现模型的有效生成长度本质上受到其在监督式微调(SFT)期间所见过的样本的限制。为了解决这个问题,我们引入了AgentWrite,它将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000个词的连贯输出。利用AgentWrite,我们构建了一个包含6,000个SFT数据的LongWriter-6k数据集,输出长度范围在2k到32k个词之间。
2024-08-29 09:52:37
1187
1
原创 大模型显存计算估算
xB的大模型,训练的显存占用约为16x GB, 使用lora大概占用4xGB。(默认全精度float32存储)推理的显存占用约为4xGB。
2024-08-28 14:57:24
834
原创 大模型微调算法汇总
Parameter-Efficient Fine-Tuning (PEFT) 技术旨在通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能。一般新场景的业务,需要微调大模型。不需要从0训练。
2024-08-27 11:24:30
401
原创 Code Llama: Open Foundation Models for Code论文阅读
所有这些模型都是在大量代码数据上训练的,并且都经过了优化以提高在代码生成和理解任务上的性能。Code Llama - Python 专注于Python语言的代码生成,而 Code Llama - Instruct 专注于提高对自然语言指令的遵循能力,并增强了模型的安全性。基础模型 Code Llama 提供了广泛的代码生成能力,适用于多种不同的编程语言。Code Llama 发布了3款模型,包括基础模型、Python 专有模型和指令跟随模型,参数量分别为 7B、13B、34B 和 70B。
2024-08-26 19:36:05
939
4
原创 MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读
大模型的趋势:模型性能越来越好,模型参数变小,端边设备计算能力变强。
2024-08-19 16:26:27
1372
3
原创 论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection
RepVL-PAN由多尺度图像特征{C3, C4, C5}形成,利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构:YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成,利用跨模态融合增强文本和图像表示。预训练方案:将实例注释重新定义为区域-文本对,通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS!
2024-07-01 17:14:25
1460
1
原创 clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP
在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。
2024-06-27 17:58:09
549
原创 论文阅读Vlogger: Make Your Dream A Vlog
论文介绍了一个名为“Vlogger”的通用人工智能系统,它能够根据用户的描述生成分钟级的视频博客(vlog)。与通常只有几秒钟的短视频不同,vlog通常包含复杂的故事情节和多样化的场景,这对现有的视频生成方法来说是一个挑战。剧本(Script):使用LLM根据用户故事创建剧本,描述多个拍摄场景及其相应的拍摄时长。演员(Actor):根据剧本总结角色,并使用角色设计师生成这些角色的参考图像。
2024-06-27 11:34:38
1013
1
原创 论文阅读KVQ: Kwai Video Quality Assessment for Short-form Videos
短视频格式、内容与长视频不同,需要引入新的质量评估方法。作者构建了一个新的用于质量评估的数据集,提出了新的质量评估方法。如下图所示,短视频有不同的格式、有模糊、噪声、编码等各种畸变。
2024-06-26 10:12:09
630
1
原创 论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
MVBench定义了20个视频理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。作者提出了一种从静态到动态的方法,将先前定义的静态图像任务转化为具有动态目标的视频任务,涵盖了从感知到认知的一系列时间理解技能。
2024-06-25 10:43:05
792
1
原创 多模态大模型综述《A Survey on Multimodal Large Language Models》
在单模态的基础上,加了新的模态,encoder后,通过mlp或者其他方式与text对齐,再输入大模型。如果需要生成新的膜套,可以再通过生成器。(此处与SD不太一样),chatGPT不会生成图片,可以对图片进行理解。LLM 辅助的视觉推理:利用 LLM 强大的内嵌知识与能力,并借助其他工具,设计各种视觉推理系统,解决各种现实问题。多模态幻觉:可以增加图像分辨率、提高数据质量,图像token表征、图像文本的对齐方式等。多模态思维链:将复杂的问题分解为较简单的子问题,然后分别解决并汇总。
2024-06-14 18:02:09
1490
原创 安装mmcv报错ERROR: No matching distribution found for tomli>=2.0.1 (from yapf)
原因:tomli>=2.0.1 (from yapf)导致的版本冲突。再pip install yapf --user。
2024-06-13 11:15:54
1690
原创 Stable Diffusion原理
目前常采用的定量指标是FID(Fréchet inception distance)和CLIP score,其中FID可以衡量生成图像的逼真度(image fidelity),而CLIP score评测的是生成的图像与输入文本的一致性,其中FID越低越好,而CLIP score是越大越好。训练条件扩散模型时,往往会采用Classifier-Free Guidance(这里简称为CFG),同时训练一个无条件的扩散模型(以一定的比例是text为‘’),然后将两者加权,可以改善最终的生成质量。
2024-06-05 22:47:44
1271
1
原创 大模型微调:Lora
原理:不改变原始大模型参数,只加入一个类似残差分支,先降纬再升纬,因为模型是过参数化的,它们有更小的内在维度,模型主要依赖于这个低的内在维度(low intrinsic dimension)去做任务适配。优势:Lora的训练参数更少。
2024-05-28 10:08:10
423
原创 mono3D任务FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
在卡尔斯鲁厄采集的数据,包括雷达(64线束激光雷达)和摄像头(灰色+彩色)。每一个fpn层级预测的size需要满足一定的边界要求(具体来说,每层负责固定的边界目标即可)。FCOS3D参考的这个做法,但是2D目标是通过3D的外接矩形获取的,用于过滤每层无效的目标。focs2D方法based-area,将点优先分配给小目标(大目标的关注就少了呀);文章说参考2D直接预测中心点的4个offset是比较难的,简单的任务是看成2.5D个任务。创新点:利用之前的2D检测任务。将3D检测解耦为基于2D检测的多个子任务。
2024-05-22 18:16:22
879
原创 how-diffusion-models-work课程学习
扩散模型可以用于图像生成、图像编辑、音乐生成等领域。后续学习更好的sampling、stable diffusion参考:https://learn.deeplearning.ai/courses/diffusion-models/p=1。
2024-05-17 15:11:33
378
原创 论文阅读DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
DriveVLM是一种结合了自动驾驶技术和大型视觉语言模型(VLMs)的系统,旨在提高自动驾驶车辆在复杂和长尾场景下的理解能力和规划能力。该系统通过引入一种特殊的思维链(Chain-of-Thought,CoT)推理过程,将场景描述、场景分析和层级规划三个关键模块结合起来,以对应传统的感知、预测和规划流程。此外,DriveVLM-Dual作为一种混合系统,结合了DriveVLM和传统自动驾驶流程的优势,以弥补VLM在空间推理和计算需求方面的局限性。
2024-04-11 17:02:08
1241
1
原创 大模型prompt技巧——思维链(Chain-of-Thought)
将问题分解为多个子问题,然后将子问题的答案加入到提示中,继续prompt,可以理解为更细化的多步step-by-step。1、Zero-shot、One-shot、Few-shot 与fintune。3、多数投票提高CoT性能——自洽性(Self-consistency)其次,思维链的应用领域是有限的。prompt的时候给出例子答案,然后再让模型回答。6、用大模型的CoT指导小模型,提升小模型的能力。多个思维链,然后取结果最多的作为最终的。5、将CoT加入fintinue中。低成本的增强已有大模型的能力。
2024-04-02 15:17:09
1593
原创 自动驾驶与大模型
平均一个prompt对应5.3个轨迹,可以用于数据挖掘。另外构建了基于prompt的轨迹预测任务(实际预测3Dbbox),提出了一个base方法prompTrack,将prompt与视觉query交互,在自己的数据集上取得了不错的效果。主要是基于nuscene生成了一个提示+实例的文本-实例对Nuprompt。
2024-04-02 14:39:59
186
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人