自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zik的博客

技术交流学习。

  • 博客(601)
  • 资源 (3)
  • 收藏
  • 关注

原创 视频生成/视频理解【文章汇总】SVD, Sora, Latte, VideoCrafter12, DiT...

Video generation has witnessed significant advancements, yet evaluating these models remains a challenge. A comprehensive evaluation benchmark for video generation is indispensable for two reasons: 1) Existing metrics do not fully align with human percepti

2024-07-24 09:58:00 1470

原创 人体三维重建【文章汇总】Humans

PA-MPJPE则是在计算误差之前,首先对预测的姿态进行了最佳比例的刚体变换(包括旋转、平移和缩放),这一过程通常通过Procrustes分析实现,目的是为了消除全局旋转和平移的影响,以及可能的比例差异,从而更加专注于评估姿态结构本身的准确性。PCK指标计算的是被正确检测出的关键点数量占总关键点数量的百分比,这里的“正确检测”指的是预测的关键点位置与真实位置之间的距离小于或等于一个给定的误差阈值(通常以关节或者像素为单位)。:对每个关节的位置序列进行一阶微分,得到各个关节的速度随时间的变化情况。

2024-07-03 15:40:48 2078

原创 Attention相关问题笔试解析。

Transformer的核心思想是使用自注意力机制(Self-Attention Mechanism)来建模序列数据中的依赖关系,取代传统的递归神经网络(RNN)和卷积神经网络(CNN)在处理序列任务时的局限性。具体来说,Transformer的架构主要由编码器(Encoder)和解码器(Decoder)组成,每个编码器和解码器模块由多头自注意力机制(Multi-Head Self-Attention Mechanism)和前馈神经网络(Feed-Forward Neural Network)组成。

2024-05-26 11:08:15 1751

原创 3D、扩散模型、GAN、StyleGAN、MAE.等【face-swapping方法汇总】

face-swapping是将一张脸的身份(肤色、面部皮肤、眉毛、眼睛、鼻子、嘴唇和嘴巴等)与另一张脸的非外观属性(表情、头部姿势、光照、图像分辨率、注释方向、头发、眼镜、耳朵、耳环、颈部和背景等非内部人脸区域)相结合,生成合成人脸。

2023-05-25 14:58:43 3611 29

原创 扩散模型+CV与NLP科研笔记专栏文章汇总:【Diffusion Models】

CLIP是一个多模态的大模型,用了4亿个(图像、文本)对进行对比学习,学习之后可以直接进行zero-shot推理,并且不需要像ImageNet那样标注1000个类,而是可以人为给出文本提示,进行图片和文本之间的相似度计算,而且迁移效果很好。那么基于此,提出了Classifier-Free Diffusion Guidance,后续非常多的工作都是基于其来进行的,例如DALL·E 2、Imagen等吸引人眼球的模型基本上都是以它为基础做的。直接用训练好的非条件的扩散模型,无需重复训练。

2023-04-04 15:54:14 5018 34

原创 【TMM 2024】An Efficient Attribute-Preserving Framework for Face Swapping

【Paper】【Code】暂无【Project】暂无来自香港大学博士的一篇工作,专注于人脸属性的保留。通过利用深度神经网络,最近的人脸交换技术在生成保持一致身份的人脸方面表现出色。然而,虽然这些方法能准确地转移源身份,但在保留目标人脸的重要属性(如头部姿势、表情和注视方向)方面却往往力不从心。因此,目前在这一领域的研究还没有取得令人满意的成果。在本文中,我们提出了一种高效的属性保留框架,简称 AP-Swap,用于人脸交换。我们的方法包含两个创新模块,专门用于保留关键的面部属性。

2025-01-01 15:05:31 1101

原创 【arXiv 2023】A Generalist FaceX via Learning Unified Facial Representation

【Paper】【Code】【Project】来自1浙江大学APRIL实验室 2腾讯优图实验室 3南洋理工大学 4VIVO 5密歇根州立大学 6南京大学的一个可以处理四个脸部任务的统一模型(即face Reenactment, Face Swapping, Head Swapping, face Animation),是值得细细学习的。

2024-12-30 11:35:07 1062

原创 我的4周年创作纪念日

对于创作而言,我的梦想是建立一个属于自己的品牌,通过文字、图像或者视频等形式传递积极向上的价值观。为了实现这一目标,我计划在未来几年内专注于提升自己的专业技能,深入研究所在领域的前沿技术,并积极参与行业交流,拓宽人脉资源。无论是在职业道路上追求卓越,还是在创作天地里自由翱翔,我都将以最真诚的态度面对每一天,珍惜每一次机会,勇敢迎接每一个挑战,让梦想照进现实,书写属于自己的精彩篇章。写的最好的代码有很多,都是题解的代码,最近看的代码也很多,不断学习吧。

2024-12-29 19:53:37 989

原创 【NeurIPS 2024】FuseAnyPart: Diffusion-Driven Facial Parts Swapping via Multiple Reference Images

【Paper】【Code】待发【Project】暂无来自上海交通大学与阿里巴巴集团的工作,参考多个图像的不同脸部部分进行融合人脸编辑。面部部位交换旨在选择性地将感兴趣区域从源图像转移到目标图像,同时保持目标图像的其余部分不变。现有问题大多数专为全脸交换而设计的面部交换研究在交换单个面部部位时要么无法实现,要么受到很大限制,这阻碍了细粒度和定制的角色设计。然而,设计这种专门用于面部部位交换的方法面临着合理的多参考特征融合的挑战,这需要既高效又有效。

2024-12-28 19:23:00 96

原创 LeetCode-8. 字符串转换整数 (atoi)【字符串】

第 2 步:“1337c0d3”(当前没有读入字符,因为这里不存在 ‘-’ 或者 ‘+’)第 2 步:“0-1” (当前没有读入字符,因为这里不存在 ‘-’ 或者 ‘+’)第 2 步:“42”(当前没有读入字符,因为这里不存在 ‘-’ 或者 ‘+’)第 2 步:" -042"(读入 ‘-’ 字符,所以结果应该是负数)第 1 步:“1337c0d3”(当前没有读入字符,因为没有前导空格)第 1 步:“0-1” (当前没有读入字符,因为没有前导空格)第 1 步:" -042"(读入前导空格,但忽视掉)

2024-12-17 20:24:45 726

原创 【arXiv 2024】Face Swap via Diffusion Model

【Paper】【Code】【Project】暂无来自中国科学技术大学的一个换脸项目,可以学习一下。

2024-12-17 15:34:01 1015

原创 【ECCV 2024】Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

【Paper】【Code】【Project】来自浙江大学、腾讯优图实验室、VIVO、南洋理工大学的工作,Face-Adapter旨在解决目前SD适配器在执行面孔重演/交换时性能不尽人意的问题。当前的面部重演和交换方法主要依赖于 GAN 框架,但最近的重点已经转向预训练的扩散模型,因为它们具有卓越的生成能力。然而,训练这些模型是资源密集型的,并且结果尚未达到令人满意的性能水平。为了解决这个问题,我们引入了Face-Adapter,这是一种高效且有效的适配器,专为预训练扩散模型的高精度和高保真人脸编辑而设计。

2024-12-16 19:16:58 810

原创 【arXiv 2024】HiFiVFS: High Fidelity Video Face Swapping

【Paper】【Code】暂无【Project】来自腾讯和VIVO的视频换脸工作,主要利用稳定视频扩散(SVD)的强大生成能力和时间先验,结合细粒度属性模块与详细的身份注入进行视频换脸,是一个很精彩的工作!面部交换旨在生成将源身份与目标属性相结合的结果。现有的方法主要集中在基于图像的人脸交换。处理视频时,每一帧都是独立处理的,很难确保时间稳定性。从模型角度来看,换脸正逐渐从生成对抗网络(GAN)转向扩散模型(DM),因为DM已被证明具有更强的生成能力。

2024-12-14 15:50:59 896

原创 【WACV 2025】Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models

【Paper】【Code】本文基于扩散模型,利用的是扩散修复来进行换脸,并进行了改进,是一个值得借鉴的工作。Face Shape Augmentation (FA) 在文中用于防止模型简单地从目标图像中复制重建图像,从而提高人脸交换的鲁棒性。1. 生成 2D 网格点首先,生成一个与人脸面具大小相同的 2D 网格点集合。2. 设置控制点在网格上设置一组控制点 O。3. 添加随机噪声向控制点 O 添加随机噪声 δ,得到点 P。噪声强度由缩放因子 s 控制,以便进行精确调节。4. 生成插值函数。

2024-12-12 21:43:04 1028

原创 Spherical Harmonics (SH)球谐函数的原理及应用【3DGS】

高斯泼溅Gaussian Splatting (GS) GS 模型采用一组 3D 高斯函数来表示 3D 场景。每个高斯分布都由一组参数来表征,即指定其中心的位置(平均值)、定义高斯分布的形状和方向的协方差矩阵、控制透明度级别的不透明度及其颜色由球谐函数 (SH)表示。GS 通过优化所有 3D 高斯参数来表示辐射场。此外,GS算法的计算效率源于其渲染过程,它利用了高斯分量的投影特性。

2024-12-09 14:56:51 2849

原创 DDIM为什么能加速采样,原理是什么。

DDIM(Denoising Diffusion Implicit Models)能够加速采样的关键在于它打破了传统扩散模型(如DDPM,Denoising Diffusion Probabilistic Models)中依赖的马尔可夫性质,并通过重新定义反向过程的概率分布来实现这一点。以下是DDIM加速采样的原理:非马尔可夫性质:自定义反向过程分布:保持一致性:灵活的噪声控制:简化的目标函数:综上所述,DDIM通过引入非马尔可夫性质、重新定义反向过程分布并保持数据分布的一致性,实现了比DDPM更快的采样速

2024-12-07 14:59:03 1585

原创 VAE为什么叫变分(variational),相对于AE有什么区别。

然而,在VAE中,我们不是直接学习一个确定的编码,而是学习一个概率分布——具体来说,是潜在变量的一个近似后验分布。总结来说,虽然AE和VAE都是基于编码-解码架构的神经网络,但它们的设计理念不同,导致了它们在功能上的差异:AE侧重于数据压缩和重构;就是隐变量的后验分布,算法中就采用一个参数化的神经网络(或者说一个参数化的函数) 去近似拟合这个后验概率分布,因此这个算法被称为 变分 自编码器。反过来而已, 这一部分也是用一个参数化的神经网络近似推断出这个条件概率分布,因此解码器部分也是一个变分推断的过程。

2024-12-07 13:53:01 713

原创 大模型,多模态大模型面试问题【代码题,DDPM,损失函数,激活函数,3DGS,Nerf,SH】

DDPM(Denoising Diffusion Probabilistic Models)中的加噪公式通常以根号形式出现,是由于在扩散过程中的噪声控制。softmax loss损失函数详解损失函数是机器学习和深度学习中用于衡量模型预测结果与真实结果之间差异的函数。均方误差 (Mean Squared Error, MSE)MSE1n∑i1nyi−yi2MSEn1​∑i1n​yi​−y​i​2用途:常用于回归问题,适合于数值型目标。

2024-12-06 15:53:09 1151

原创 大模型,多模态大模型,AI算法面试问题【bert,resnet,ROC,扩散模型,DiT,LoRA,3DGS,Nerf,FID】

ROC通常指的是“接收者操作特性”(Receiver Operating Characteristic)曲线,这是一种广泛应用于医学、统计学、机器学习等领域的图形工具,用于描述二分类模型的性能。ROC曲线通过绘制真阳性率(True Positive Rate, TPR)与假阳性率(False Positive Rate, FPR)之间的关系来评估模型的性能。真阳性率(TPR):也称为灵敏度或召回率,是指所有实际为正类的样本中被正确预测为正类的比例。

2024-12-06 15:50:53 1328

原创 大模型,多模态大模型面试问题【P-tuning,VAE,梯度累加,秩,混合精读训练,SVM,softmax,LoRA】

在使用语言模型(如基于Transformer的模型)时,模型在生成回答时会根据上下文生成一个一个的token。你提到的“我去哪里”是一个输入序列,模型的输出可能是“去北京”。输入序列的Embedding当你输入“我去哪里”时,模型会首先将这个句子转换为token embeddings。这些embeddings是通过查找词嵌入矩阵得到的,代表了每个token的语义信息。上下文表示模型在处理输入时,会通过自注意力机制结合输入序列中每个token的信息,生成每个token的上下文表示。

2024-10-31 12:30:55 1054

原创 手写二维卷积conv2d

在二维互相关运算中,卷积窗口从输入数组的最左上方开始,按从左往右、从上往下的顺序,依次在输入数组上滑动。当卷积窗口滑动到某一位置时,窗口中的输入子数组与核数组按元素相乘并求和,得到输出数组中相应位置的元素。原创文章,转载告知,盗版必究。时间复杂度:O(n)空间复杂度:O(n)

2024-10-31 11:10:30 364

原创 大模型,多模态大模型面试问题记录【时序,Qformer,卷积,感受野,ControlNet,IP-adapter】

参考BLIP2中Q-former详解Q-Former是一个轻量级的transformer,它使用一个可学习的query向量集,从冻结的视觉模型提取视觉特征。采取两阶段预训练策略阶段一:vision-language表示学习(representation learning),迫使Q-Former学习和文本最相关的视觉表示。

2024-10-28 15:47:33 1446

原创 视频编码器架构【视频理解,视频生成】

具体细节查看/mnt/data/group/zzk/projects/models/InternVideo2-Chat-8B/modeling_internvideo2_vit.py的856行。下面代码是第三阶段的,图中Projection只用于第一阶段训练。详见InternVideo2_Paper。InternVideo2-Chat-8B-stage3的视频编码器。

2024-10-28 09:57:17 266

原创 大模型,多模态大模型面试问题【计算图,LLama,交叉熵,SiLU,RLHF】

计算图模式:PyTorch 是动态图,TensorFlow 是静态图(2.0以后支持动态图)。灵活性和调试性:PyTorch 更加灵活、易调试,TensorFlow 在性能和大规模部署上更有优势。用户群体:PyTorch 更适合科研和实验,TensorFlow 更适合生产和部署。总之,PyTorch 更注重代码的动态性和可操作性,而 TensorFlow 强调性能优化和部署灵活性。绝对位置编码的优点是计算速度快等,缺点是拓展长度比较麻烦,且绝对位置并没有什么实际意义。

2024-10-26 23:02:28 1405

原创 大模型,多模态大模型面试【LoRA,分类,动静态数据类型,DDPM,ControlNet,IP-Adapter, Stable Diffusion】

扩散去噪概率模型(Denoising Diffusion Probabilistic Models,DDPM)详细介绍目录概述背景模型原理正向扩散过程反向去噪过程训练过程采样过程模型优势应用场景近期发展数学细节总结参考文献1. 概述扩散去噪概率模型(DDPM)是一类生成模型,利用马尔可夫链逐步添加和去除噪声来生成数据。它在图像生成、音频生成等领域表现出色,生成质量与生成对抗网络(GAN)相当甚至更好,同时训练更加稳定。2. 背景。

2024-10-25 10:16:15 1396

原创 【论文精读2022】HS-Diffusion: Learning a Semantic-Guided Diffusion Model for Head Swapping

【Paper】【Code】基于图像的头交换任务旨在将一个源头完美地缝合到另一个源体上。这个很少被研究的任务面临着两个主要的挑战:1)保持头部和身体的各种来源,同时生成一个无缝的过渡区域。2)目前还没有配对头交换数据集和基准测试。本文提出了一种基于潜扩散模型(LDM)和语义布局生成器的头交换语义混合扩散模型(HS-Diffusion)。我们将源头和源体的语义布局混合在一起,然后用语义布局生成器inpaint过渡区域,实现了粗粒度的源头交换。

2024-10-24 12:53:29 115

原创 会议室调度问题【PDD二面】

这是经典的会议室调度问题,目标是找到最少的会议室数量,确保每个会议都能顺利进行,且会议室之间不会时间冲突。给定一系列时间段开会[[s1,e1], [s2,e2], [s3, e3]],求会议室的最小要求个数。,目标是找到最少的会议室数量,确保每个会议都能顺利进行,且会议室之间不会时间冲突。原创文章,转载告知,盗版必究。时间复杂度:O(n)空间复杂度:O(n)时间复杂度:O(n)空间复杂度:O(n)

2024-10-24 12:52:25 789

原创 softmax代码计算及梯度计算【面试常考代码题】

雅可比矩阵softmax函数的导数可以表示为雅可比矩阵,其中对角线元素表示某一输出对自身输入的导数,非对角线元素表示输出对其他输入的导数。结合交叉熵损失的梯度:在机器学习中,softmax常与交叉熵损失结合使用,梯度计算简化为softmax输出减去目标标签。这种组合广泛用于多分类任务中的反向传播。欢迎大家关注笔者,你的关注是我持续更博的最大动力原创文章,转载告知,盗版必究。

2024-10-24 12:51:19 1168

原创 LeetCode-12. 整数转罗马数字【哈希表 数学 字符串】

如果该值以 4 或 9 开头,使用 减法形式,表示从以下符号中减去一个符号,例如 4 是 5 (V) 减 1 (I): IV ,9 是 10 (X) 减 1 (I):IX。仅使用以下减法形式:4 (IV),9 (IX),40 (XL),90 (XC),400 (CD) 和 900 (CM)。你不能多次附加 5 (V),50 (L) 或 500 (D)。如果该值不是以 4 或 9 开头,请选择可以从输入中减去的最大值的符号,将该符号附加到结果,减去其值,然后将其余部分转换为罗马数字。

2024-10-08 15:59:24 984

原创 LeetCode-6. Z 字形变换【字符串】

之后,你的输出需要从左往右逐行读取,产生出一个新的字符串,比如:“PAHNAPLSIIGYIR”。将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。输入:s = “PAYPALISHIRING”, numRows = 3。输入:s = “PAYPALISHIRING”, numRows = 4。输入:s = “A”, numRows = 1。时间复杂度:O(n)空间复杂度:O(n)时间复杂度:O(n)空间复杂度:O(n)时间复杂度:O(n)空间复杂度:O(n)

2024-10-08 15:31:12 870

原创 LeetCode-2608. 图中的最短环【广度优先搜索 图,腾讯面试真题】

现有一个含 n 个顶点的 双向 图,每个顶点按从 0 到 n - 1 标记。图中的边由二维整数数组 edges 表示,其中 edges[i] = [ui, vi] 表示顶点 ui 和 vi 之间存在一条边。输入:n = 7, edges = [[0,1],[1,2],[2,0],[3,4],[4,5],[5,6],[6,3]]输入:n = 4, edges = [[0,1],[0,2]]答:这说明到同一个点有两条不同的路径,这两条路径组成了一个环。解释:长度最小的循环是:0 -> 1 -> 2 -> 0。

2024-10-08 15:08:13 929

原创 LeetCode-260. 只出现一次的数字 III【位运算 数组,字节】

给你一个整数数组 nums,其中恰好有两个元素只出现一次,其余所有元素均出现两次。除两个只出现一次的整数外,nums 中的其他数字都出现两次。代码实现时,需要找到异或和中的某个值为 1 的比特位。欢迎大家关注笔者,你的关注是我持续更博的最大动力。输入:nums = [1,2,1,3,2,5]解释:[5, 3] 也是有效的答案。输入:nums = [-1,0]输入:nums = [0,1]时间复杂度:O(n)空间复杂度:O(1)时间复杂度:O(n)空间复杂度:O(1)时间复杂度:O(n)空间复杂度:O(n)

2024-09-20 10:26:17 676

原创 LeetCode-137. 只出现一次的数字 II【位运算 数组】

你必须设计并实现线性时间复杂度的算法且使用常数级空间来解决此问题。输入:nums = [0,1,0,1,0,1,99]给你一个整数数组 nums ,除某个元素仅出现。请你找出并返回那个只出现了一次的元素。输入:nums = [2,2,3,2]外,其余每个元素都恰出现。时间复杂度:O(n)空间复杂度:O(1)时间复杂度:O(n)空间复杂度:O(1)时间复杂度:O(n)空间复杂度:O(n)

2024-09-18 22:19:05 661 1

原创 成功解决ImportError: cannot import name ‘log‘ from ‘torch.distributed.elastic.agent.server.api‘

欢迎大家关注笔者,你的关注是我持续更博的最大动力。建议将“log”更改为“logger”。微信:suihailiang0816。原创文章,转载告知,盗版必究。wx公众号:仰望星空的小随。

2024-08-21 18:20:03 6123 2

原创 CV/NLP【面经】

● 降维:如果原始输入特征图的深度为3(意味着有3个通道),并且应用了一个1x1卷积层,但是只选择了2个滤波器(filters),那么这个操作会将输入特征图的深度从3降到2。● 升维:相反,如果同样深度为3的输入特征图经过一个配置为4个滤波器的1x1卷积层,那么输出特征图的深度将会增加到4。如下图所示,如果选择2个filters的1x1conv,那么数据就从原来的depth 3降到2.若选择4个filters的1x1conv,则起到升维的作用。2.一个1x1conv结合非线性单元,相当于加入了非线性。

2024-08-07 16:00:46 1182

原创 【ECCV 2024】InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

Authors单位【Paper】【Project】我们推出了 InternVideo2,这是一个新的视频基础模型 (ViFM) 系列,它在视频识别、视频文本任务和以视频为中心的对话方面取得了最先进的结果。我们的核心设计是一种渐进式训练方法,它将屏蔽视频建模、跨模态对比学习和下一个标记预测相结合,将视频编码器大小扩展到 6B 参数。在数据层面,我们通过对视频进行语义分割并生成视频音频语音字幕来优先考虑时空一致性。这改善了视频和文本之间的对齐。

2024-08-01 15:14:35 1749

原创 【CVPR 2024】InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic

Authors单位:OpenGVLab, Shanghai AI Laboratory【Paper】【Project】背景问题大型语言模型 (LLM) 的指数级增长为多模式 AGI 系统开辟了无数可能性。然而,视觉和视觉语言基础模型(也是多模态 AGI 的关键要素)的进展并没有跟上大语言模型的步伐。在这项工作中,我们设计了一个大规模视觉语言基础模型(InternVL),它将视觉基础模型扩展到 60 亿个参数,并使用网络规模web-scale的图像文本数据逐步与 LLM 对齐。来自各种来源。

2024-07-31 16:53:28 1291

原创 【ACL 2024】Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

Authors【Paper】【Project】由大型语言模型 (LLM) 推动的对话代理正在提供一种与视觉数据交互的新方式。虽然已经对基于图像的对话模型进行了初步尝试,但这项工作通过引入 Video-ChatGPT 解决了 \emph{基于视频的对话} 尚未开发的领域。它是一种多模态模型,将视频自适应视觉编码器与大语言模型相结合。生成的模型能够理解并生成有关视频的详细对话。数据集,定量评估框架。

2024-07-30 18:53:44 1920

原创 快速方便地下载huggingface的模型库和数据集

使用方法:将hfd.sh拷贝过去,然后参考下面的参考命令,下载数据集或者模型。欢迎大家关注笔者,你的关注是我持续更博的最大动力。或克隆此存储库,然后授予脚本执行权限。这个代码不能保持目录结构,见下面的改进版。获取huggingface令牌,然后。中,这个命令行工具巧妙地利用。来处理 LFS 文件,并使用。为了方便起见,您可以创建一个别名。原创文章,转载告知,盗版必究。首先,下载 hfd.sh。

2024-07-30 11:31:51 5254 4

原创 【arxiv 2024】VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding

Authors【Paper】【Project】整体架构由 (i) 分段采样、(ii) 双视觉编码器、(iii) 将视觉特征投射到语言域的视觉语言适配器和 (iv) 大型语言模型组成。其他贡献包括VCG+,112K 数据集和VCGBench-Diverse基于语言模型的进步,大型多模态模型 (LMM) 在视频理解方面做出了重大改进。虽然当前的视频 LMM 使用先进的大语言模型 (LLM),但它们依赖图像或视频编码器来处理视觉输入,而每种编码器都有其自身的局限性。

2024-07-30 10:45:49 1248

中山大学计算机专业实习找工作模板Overleaf

中山大学计算机专业实习找工作模板【Overleaf】

2023-12-13

T5的整体介绍代码实战

T5的整体介绍【代码实战】1.Header 2.summary 3 T5 model 3.1 forward 3.2 预训练任务 3.2.1 multi sentence pairs 3.3 完成 tasks 可见可以做的任务有1.翻译;2.是否接受一个句子;3.句子直接的相似度计算;4.摘要。 - CoLA: Linguistic Acceptability - CoLA,全称为The Corpus of Linguistic Acceptability,是一个英语语言的句子接受度数据集,由华盛顿大学计算机科学与工程系的一组研究人员于2018年创建。该数据集旨在提供一个用于评估自然语言处理模型所生成文本的语言接受度和流畅度的基准测试集。 - CoLA数据集由10657个英语句子组成,这些句子来自各种不同的来源,包括核心新闻材料和审判文件等。每个句子都被标记为可接受或不可接受,可接受的句子应该具有语法正确性和常识性,相反,不可接受的句子可能会涉及句法错误、歧义、语义冲突等问题。 - CoLA数据集是典型的二元分类问题,用于测试模型对自然语言句子的语法和语义的

2023-06-02

【Bert、T5、GPT】fine tune transformers 文本分类/情感分析

是一个情感分类的项目,前面是对emotion数据集的处理和分析,以及将整个数据集分词以及处理成模型的输入形式。 主要是通过加载一个文本分类的预训练模型,然后在数据集上面进emotion数据集上面的fine-tuning。然后对训练好的模型进行效果的分析,包括F1,Precision和Recall等。 fine-tune transformers distilbert-base-uncased - distilbert 是对 bert 的 distill 而来 - 模型结构更为简单, - bert-base-uncased 参数量:109482240 - distilbert-base-uncased 参数量:66362880 - trainer默认自动开启 torch 的多gpu模式, - `per_device_train_batch_size`: 这里是设置每个gpu上的样本数量, - 一般来说,多gpu模式希望多个gpu的性能尽量接近,否则最终多gpu的速度由最慢的gpu决定, - 比如快gpu 跑一个batch需要5秒。

2023-05-30

OSError: Looks like you do not have git-lfs installed【没有root权限】

LFS是Large File Storage的缩写,用了帮助git管理大的文件 原理:不同于git每次保存diff,对于git来说,如果是模型或者一些设计大文件,改变一点,对于仓库来说会增加很大的体积,不一会就能几个G。对于git lfs来说,在使用git lfs track命令后,git push的时候,git lfs会截取要管理的大文件,并将其传至git lfs的服务器中,从而减小仓库的体积

2023-05-30

从DDPM到score-based generative models再到Consistency Models的介绍

从DDPM到score-based generative models再到Consistency Models的介绍,对于扩散模型的全面理解有一定的帮助。

2023-05-28

基于 Logistic 混沌映射和 Arnold 变换 的变换域水印改进算法【高级网络与信息安全技术-信息隐藏期末课程论文】

文章在https://blog.youkuaiyun.com/qq_45934285/article/details/130823846?spm=1001.2014.3001.5501 本文提出了一种新的水印算法是一种图像认证的新方法。 算法首先使用Logistic混沌映射加密水印图像,然后使用Arnold变换置乱水印。 同时改变了水印图像的像素位置和像素值,大大提高了算法的安全性。 再使用DCT变换嵌入水印,并且结合人类视觉系统的特点来提升水印嵌入的透明性。 实验结果表明,本文提出的水印算法可以大幅度提高水印嵌入的透明性与安全性的同时,并不降低算法的鲁棒性。 注:完整的代码和论文在文末,百度网盘链接。 本文提出了一种鲁棒性较强的DCT域数字水印算法, 该算法采用有意义图像作为水印。本算法利用了Logistic混沌映射与Arnold变换进行水印图像的加密,充分增加了水印系统的安全性。然后利朋DCT变换将水印的嵌入空间由空域改为变换域及R、G、B这个通道互相抵消影响,增强了算法的透明性。通过对嵌入水印后的图像实施旋转、压缩、改变大小和剪切等攻击实验, 结果证明, 该算法具有较好的鲁棒性和稳健性。

2023-05-23

实验课的通用LaTeX模板,经过多年的使用和改进的最终版本,有英文和中文两种,逻辑清晰,上手简单

实验课的通用LaTeX模板,字体偏大很快写完一页(也可以调整字体大小)。文章的每一部分都分门别类好了,逻辑清晰。 主文件是main.tex,在里面修改全局性的属性,例如标题,页眉页脚等,都已经设计好,十分美观简洁明了。 主要内容文件是body.tex,在里面写摘要和结论,其余部分内容放在content文件夹的目录下面,不同的章节放在不同的.tex文件中,只需要在body.tex中引用即可。也有图片和公式的模板代码。 图片放在figures的目录下面。 c++代码和python代码样式在sysulab.sty中,调用方式也已经写好。 MATLAB代码样式在mcode.sty中,调用方式也已经写好。 至于LaTeX的编辑器,我推荐大家用在线的Overleaf,自动编译,使用起来也很简单。

2023-05-20

Score-Based Generative Modeling的一个代码示例,已经训练好,并且有代码注释,帮助更深入的理解学习

Score-Based Generative Modeling的一个代码示例,已经训练好,并且有代码注释,帮助更深入的理解学习。

2023-03-31

diffusion-model的一个小demo,能够生成S型曲线,对于初学者深入理解扩散模型很有帮助

diffusion_model的一个小demo,能够生成S型曲线,对于初学者深入理解扩散模型很有帮助。

2023-03-06

运动场管理系统.rar

一个用Eclipse实现的Java项目,后端用的是MySQL服务器。提供了说明文档,细节开发文档,源码,和数据库表的说明。 Java实现的,数据库配置使用了工厂模式,仅需修改database.properties的数据库文件,并配置mysql数据库表即可运行。 实现了数据库接口类,数据库实现类,用户实体类和用户实现类,服务接口类,服务实现类,工厂类等等和最主要的Main.java运行即可。 给了数据库表的说明,以及数据库表之间的关联,包括user表和record表等等。 主要功能:用户注册和登录,查询运动场的借用情况,也可以根据每个用户个性推荐给用户合适的运动场地,还可以查询余额和充值余额,以及最主要的场地借用。 "一个自己写的Java项目,提供给有需要的同学学习参考。"

2022-04-11

考研数学笔记包括:线性代数和高等数学的笔记(xmind)

考研数学笔记包括:线性代数和高等数学的笔记(xmind)考研期间做的一些数学笔记,都是重点和常考点,希望对考研学子们有所帮助。注意是考研数学二!

2022-04-10

J2EE复习包.zip

大工软院J2EE,看完必过!!!大连理工大学软件学院,最强复习资料,各种真题,笔记,学长的笔记,倾心复习,往年的J2EE考题,看完J2EE必过!!!

2020-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除