- 博客(84)
- 资源 (1)
- 收藏
- 关注
原创 论文阅读 - GenPTW: In-Generation Image Watermarking for ProvenanceTracing and Tamper Localization
GenPTW 将来源追踪和篡改定位集成到统一设计中,而其他方法多侧重于单一功能。它通过频率协调解码器提高了水印提取准确性和篡改定位鲁棒性,在各种降解攻击下表现更优。引入失真层模拟 AIGC 编辑,增强了对 AIGC 编辑和常见降解的鲁棒性。在实验中,GenPTW 在比特恢复准确率和视觉保真度上超过多数现有生成中水印方法,如 PSNR 达到 37.12dB 。
2025-05-11 19:20:43
51
1
原创 论文阅读-Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery Detection(PFF)
本文揭示了人脸伪造检测场景中后门攻击的新威胁,提出 Poisoned Forgery Face 框架,实验证明该框架在攻击成功率和隐身性上优于现有方法,且对后门防御有良好抵抗能力,希望引起对该潜在威胁的更多关注。
2025-04-26 18:31:50
48
1
原创 论文阅读:One-for-More: Continual Diffusion Model for Anomaly Detection
提出持续扩散模型 CDAD 用于异常检测,通过持续扩散模型框架、iSVD 和 AMN,有效解决了扩散模型在持续学习中的遗忘和幻觉问题,在异常检测性能和抗遗忘能力方面达到了最先进水平。
2025-04-16 22:58:32
97
1
原创 论文阅读-Rethinking Vision-Language Model in FaceForensics: Multi-Modal Interpretable ForgedFaceDetector
本文提出的 M2F2 - Det 通过伪造提示学习(FPL)将 CLIP 的多模态学习能力应用于深度伪造检测,利用桥接适配器(Bri - Ada)连接 CLIP 图像编码器与深度伪造检测网络,生成更强大有效的视觉表示,并与 LLM 无缝集成以增强可解释性。在多个数据集上的实验表明,M2F2 - Det 在深度伪造检测和解释生成任务中均取得了优异的性能,为可解释的深度伪造检测提供了有效的解决方案。未来可进一步探索如何更好地利用面部动作单元等特定伪造信息,提升模型在复杂场景下的检测能力。
2025-04-07 22:02:58
115
1
原创 论文阅读:基于增强通用深度图像水印的混合篡改定位技术 OmniGuard
提出 OmniGuard 混合篡改定位和鲁棒版权保护框架,结合主动双水印网络和被动提取器,改进现有通用水印方法。设计深度降解感知篡改提取器,融合重建定位水印的伪影和篡改图像,在严重降解下提高定位精度。设计自适应水印变换和轻量级 AIGC 编辑模拟器,分别增强容器图像保真度和版权提取精度。
2025-04-02 23:47:52
341
1
原创 论文阅读:Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt - 视觉语言模型越狱攻击BAP
本文提出双模态对抗提示攻击(Bi-Modal Adversarial Prompt Attack,BAP),用于对大视觉语言模型(LVLMs)进行越狱攻击。BAP 通过同时优化视觉和文本提示来突破限制,先在视觉提示中嵌入通用对抗扰动,再利用大语言模型和思维链推理优化文本提示。实验表明,BAP 在开源和商业 LVLMs 上的攻击成功率平均比其他方法高29.03%,还能评估模型的偏差和对抗鲁棒性。
2025-03-30 16:58:12
66
1
原创 论文阅读: Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models 对扩散模型语义水印的黑盒伪造攻击
攻击者可以利用无关的模型,即使是架构不同的模型,也可以进行有效的伪造攻击。
2025-03-28 23:32:24
86
1
原创 论文阅读-OpenFedLLM: Training Large Language Models onDecentralized Private Data via Federated Learning
在这项工作中,通过建立了通过联邦学习在未充分利用的分布式私有数据上训练 LLM 的完整流程,为 LLM 在公共数据逐渐枯竭的情况下的一个有希望的发展方向指明了方向。为了支持全面的探索,我们提出了一个集成、简洁、研究友好的框架,名为 OpenFedLLM。OpenFedLLM 涵盖联邦指令调整、联邦值对齐、7 个经典 FL 基线、8 个语言训练数据集和 30 多个评估指标。
2024-11-07 23:16:21
255
1
原创 论文阅读:Detecting, Explaining, and Mitigating Memorization in Diffusion Models
对于扩散模型可能“记住”的特定prompt,无论初始种子如何,它们生成的图像都极其相似。这说明模型最终生成的图像会极大程度地背离初始点。
2024-03-11 21:34:49
602
1
原创 论文阅读-SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large
本篇文章主要是测评GPT4V 和Gemini的深伪鉴别能力的文章,探究了闭源多模态模型使用提示学习在活体检测、深伪鉴别两个任务上的回答质量。
2024-03-11 21:10:29
445
1
原创 DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation
本文介绍了一个深度学习模型用于检测DeepFake,该模型需要将已知伪造样本的知识转移到新的伪造样本上。作者提出了一个目标域和源域的概念,目标域只包含未标注的样本,而源域则包含样本和标签。作者的目标是让特征提取器学习到不同域之间的共同伪造特征,以实现在源域和目标域上的良好性能。作者提出的模型由分类器和特征提取器组成,其中分类器和特征提取器的参数分别为θG和θF。
2024-01-24 10:20:45
1107
原创 论文阅读-Narrowing Domain Gaps with Bridging Samples for Generalized Face Forgery Detection
多数伪造检测方法都面临着泛化问题。特别是,现有的泛化方法很难检测到未见过的伪造类型的假脸。本文作者认为,泛化存在困难的原因是跨伪造类型间的分布差距太大。因此,在本文中,作者通过基于领域对齐来缩小不同伪造类型的样本特征的差距。
2023-12-05 14:17:57
421
2
原创 论文阅读-Null-text Inversion for Editing Real Images using Guided Diffusion Models
利用DDIM Inversion做图像重建或图像编辑任务时,直接做有条件的DDIM重建会导致误差累积,从而导致重建结果逐渐偏离原图像;现有的图像编辑方法大多需要对模型进行微调,或对模型权重、内部结构等进行优化,操作起来比较复杂。本文方法:null-text inversion首先对输入图像提取caption,然后在每个采样时间步t,都利用以下损失函数对null-text embedding进行优化,最终得到每个采样时间节点t所对应的优化后的null-text embedding,并实现对图像的重建和编辑
2023-12-05 13:47:31
1159
1
原创 论文阅读-FCD-Net: 学习检测多类型同源深度伪造人脸图像
提出了一种基于多分类任务的深度伪造人脸图像检测方法,该方法可以检测整个人脸合成、人脸交换、人脸属性处理和真实人脸图像。该方法基于一个设计良好的网络框架,包括面部突触显著性模块(FSS)、轮廓细节特征提取模块(CDFE)和区分特征融合模块(DFF)三个模块。
2023-10-17 21:35:12
1728
原创 论文阅读-可泛化深度伪造检测的关键
学习类内一致性和类间多样性的特征,我们利用一种新的基于Transformer的自监督学习方法和一种有效的数据增强策略来增强深度伪检测泛化性。
2023-10-17 20:25:43
1418
原创 数据开发工程师-面试题
递增数组,判断数组中是否存在两个数之和为target,思路为双指针,一个begin,一个end,每次移动一个指针。逆序对在一个数组中,如果一个数比其后面的数大,则称这两个数构成一个逆序对。所有非主键列(非关键字列)都必须完全依赖于候选键(主键)。所有的数据必须是原子的,不能包含集合、数组、嵌套表格等非原子数据。方法:使用双指针的方法,遍历两个输入数组,逐个比较元素,将较小的元素添加到新数组中。,即表中的每一列都应该与主键有关系,而不是只与主键的一部分有关。的链表,表示两个非负的整数。它们每位数字都是按照。
2023-09-24 19:07:40
965
3
原创 大数据开发工程师面试题
map/reduce程序执行时,reduce节点大部分执行完毕,但是又一个或几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时时百倍或千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,称为数据倾斜。用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方法:自己实现partition类,用key和value相加取hash值。21、Hbase的rowkey怎么创建好?
2023-09-23 14:38:54
989
原创 计算机视觉面试题整理
②曼哈顿距离更适合在各维度上的尺度不同或者数据呈现明显的块状分布时,因为它不考虑各维度之间的差异,而只计算了坐标轴上的距离。(休息一下,晚点回来~按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同。而且树模型不能进行梯度下降,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。6、在k-means或KNN,我们常用欧氏距离来计算最近的邻居之间的距离,有时也用曼哈顿距离,请对比下这两种距离的差别。
2023-09-13 17:43:23
1246
1
原创 深度学习常用的Python库(核心库、可视化、NLP、计算机视觉、深度学习等)
然而,它的发展停滞不前,其最后一版发布于2009年。幸运的是,Pillow 是一个积极开发的 PIL 分支,它更易于安装,可在所有主流操作系统上运行,并支持 Python 3。PIL( Python Imaging Library )是一个免费的 Python 编程语言库,(5)自然语言处理:NLTK、SpaCy、Gensim。(4)分布式深度学习:Dist-(6)数据抓取:Scrapy。
2023-09-10 23:50:48
4090
原创 Pytorch面试题整理(2023.09.10)
nn.Sequential 里面的顺序是你想要的,而且不需要再添加一些其他处理的函数 (比如nn.functional 里面的函数,nn 与 nn.functional 有什么区别?成 [[3.0, 3.0], [3.0, 3.0]],和 l1 的形状一样之后,再进行加法计算,计算的导数结果实际上为 [[2.0, 2.0], [2.0, 2.0]],为了对应常数输入,所以最后 w2 的梯度返回为矩阵之和 8。反之,如果卷积层的设置一直变化,将会导致程序不停地做优化,反而会耗费更多的时间。
2023-09-10 23:17:13
10749
1
原创 数据分析面试题(2023.09.08)
如果P值很小,说明原假设情况的发生的概率很凶啊,而如果出现了,根据小概率原理,我们就有理由拒绝原假设。但是检验的结果究竟时“显著的”“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。参数估计和假设检验是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。因为男女的点击率可能有较大的差异,同时低点击率的群体的占比增大。1、54张扑克牌,分成2份,求着2份都有2张A的概率。
2023-09-08 17:31:24
5199
1
原创 计算机视觉领域经典模型汇总(RCNN、YOLO等)
Fast R-CNN是在RCNN和Selective Search基础上提出的改进方法,主要创新是将整个目标检测流程集成到一个卷积神经网络(CNN)种,从而显著提高了速度和性能。主要经典算法有:YOLO。Faster R-CNN 进一步改进了 Fast R-CNN,将目标检测模型的速度提高到了一个新的水平,同时保持了很高的准确性。RCNN是用于目标检测的经典方法,其核心思想是将目标检测任务分解为两个主要步骤:候选区域生成和目标分类。
2023-09-07 16:53:01
6396
原创 深度学习面试八股文(2023.9.06)
假设有两个模型,一个是生成模型(Generative Model,下文简写为G),一个是判别模型(Discriminative Model,下文简写为D),判别模型(D)的任务就是判断一个实例是真实的还是由模型生成的,生成模型(G)的任务是生成一个实例来骗过判别模型(D),两个模型相互对抗,最终使得生成模型生成的实例域真实的没有区别,判别模型无法区分自然的还是模型生成的。CNN的关键是卷积运算,卷积核和卷积输入层进行局部连接可以获取整个输入的局部特征信息或者说是每个输入特征的组合特征。
2023-09-06 17:35:25
11950
1
原创 算法面试-深度学习基础面试题整理-AIGC相关(2023.9.01)
包括了ChatGPT (文本到文本的对话模型)与 DALL-E-2(文本到图像的生成模型) , Codex(文本到代码的生成模型) ,Dreamfusion (文本到3D图像), Flamingo(图像到文本),Phenaki (文本到视频),AudioLM(文本到音频),Galactica(文本到科学文本),AlphaTensor(自动搜索高性能的矩阵运算逻辑)等模型。为了能够训练这些巨大的模型,必须拥有强大的计算能力和一支技术精湛、经验丰富的数据科学和数据工程团队。2、如何改善GAN的模式坍塌?
2023-09-01 17:32:21
4622
1
原创 算法面试-深度学习基础面试题整理(2023.8.29开始)
算法面试-深度学习面试题整理(2024.8.29开始,每天下午持续更新....)
2023-08-29 17:45:27
1418
1
原创 论文阅读-DF-Platter: Multi-Face Heterogeneous Deepfake Dataset(多人脸异构深度伪造数据集)
DF-Platter数据集,是一个多人脸异构的 deepfake 数据集。该数据集模拟了deepfake生成的真实场景。使用多种技术生成的低分辨率和高分辨率深度伪造;带有印度种族面部图像的单主体和多主体深度伪造数据集。
2023-07-05 10:48:04
3088
15
原创 论文阅读:DeepFake-Adapter: Dual-Level Adapter for DeepFake Detection(Deepfake模型快速调参)
提出了一个针对深度伪造模型的高效的参数微调方法,考虑ViT模型能够提取到高级的语义信息,本研究利用参数微调方法微调ViT模型用于深度伪造检测。
2023-07-05 10:40:29
675
1
原创 图像的低秩表达与LoRA技术
以传统微调方法相比,无需消耗大量内存和GPU,它可以通过优化适应过程中密集层变化的秩分解矩阵,来间接训练神经网络中的一些密集层,同时保持预先训练的权重不变。这样可以显著降低参数量,提高计算和存储效率。
2023-06-07 11:17:12
337
原创 论文阅读-AVoiD-DF: Audio-Visual Joint Learning for Detecting Deepfake(多模态数据集DefakeAVMiT+多模态鉴伪方法AVoiD-DF)
以前的方法仅侧重单模态的伪造,即使有多模态的数据也只是将音频信号当做监督信号,忽略了音频被伪造的可能。本文提出一个新的多模态基准数据集DefakeAVMiT,其包含足够多的视频和音频伪造内容,两个模态均有伪造。本文提出了一种检测Deepfake的视听联合学习方法(AVoiD-DF),其利用视听不一致性进行多模态伪造检测。
2023-05-30 11:12:02
2371
5
原创 论文阅读-DGM4-Detecting and Grounding Multi-Modal Media Manipulation
本文提出了检测并定位多模态媒体篡改任务DGM4、构建并开源了DGM4数据集,同时提出了多模态层次化篡改推理模型。
2023-05-16 16:40:56
1981
4
原创 DE-FAKE: Detection and Attribution ofFake Images Generated by Text-to-Image Generation Models
本文的主要创新是开发了一种机器学习分类器,用于检测和归因文本到图像生成模型生成的虚假图像。该研究对四种流行的文本到图像生成模型进行了广泛的实验,包括DALL·E 2, Stable Diffusion, GLIDE, and Latent Diffusion,以及两个基准图像数据集MSCOCO和Flickr30k。实验结果表明,可以将各种模型生成的虚假图像与真实图像区分开来,并且可以有效地将虚假图像归因于其源模型。
2023-05-15 09:31:39
950
原创 Prompting Learning在CV领域的进展
NLP领域提出了Prompt新范式,企图革新原先的Fine-tuning方法,而在CV领域prompt可以理解为图像的label设计,从这个角度看,prompt(预测文本中的mask字符,完形填空式)其实是介于Image caption(给出一幅图,生成一段描述的文字,迭代预测出每一个字符)和one-hot label (one-hot可以认为是prompt的特例,单字符通过文本编码器编码成one-hot)之间的任务。
2023-05-12 10:26:35
3073
1
原创 Visual Prompt
正如随着attention机制和transformer在NLP成为主流,attention+CNN、Vit、Swin-transformer、ShiftVit等基于attention和transformer的CV模型不断涌出一样;在看到prompting在NLP变得越来越火时,我们自然问道:Why not visual prompting?
2023-04-03 11:04:12
2279
3
原创 论文阅读-Self-Supervised Video Forensics by Audio-Visual Anomaly Detection-音视频异常检测
之后训练了一个模型根据之前所有帧的特征去估计下一帧的特征,这些模型采用条件概率乘积的形式,其中每个特征都以先前的特征为条件。以上指示的是视频片段和音频片段暂时同时出现的可能性,总和取的是时间窗口内所有视频片段的总和,估计了所有视听对在时间窗口的同步分数(同步概率)。通过检测音频和视频信号之间的不一致性来识别被操纵的视频,该方法使用自回归模型生成一系列视听特征,这些特征捕捉了视频帧和声音之间的时间同步。训练后,该方法可用于获得用于异常检测的特征集,该特征集提供视频片段和音频之间可能的对齐的概率分布。
2023-03-30 15:06:19
1334
1
原创 大模型时代下做科研的四个思路
注:模型蒸馏:使用训练集训练出来一个完整复杂的teacher模型,然后设计一个小规模的student模型,再固定teacher模型的权重参数,然后使用训练集和teacher模型的输出同时对student模型进行训练,此时就需要设计一系列loss,让student模型在蒸馏学习的过程中逐渐向teacher模型的表现特性靠拢,使得student模型的预测精度逐渐逼近teacher模型。因此训练成本大幅降低。例如下图,将两个图片通过数据增强得到第三个图片,同时将两个图片的文本进行拼接得到第三个图片的文本。
2023-03-27 17:17:13
2418
3
原创 论文阅读-Training a Helpful and Harmless Assistant withReinforcement Learning from Human Feedback
把对喜好的建模和RLHF用来做微调语言模型使得模型是有效且无害的。可以提升几乎所有自然语言的评估性能,还可以实现一些额外的技能,如coding,摘要,写作等,模型足够大时可以学到很多种类技能。并且使用迭代的在线学习训练,每星期训练一个新的奖励函数和RL策略,训练了新的模型以后重新进行人工标注,不断更新。
2023-03-23 09:58:09
1915
1
原创 论文阅读-(GLIP)Grounded Language-Image Pre-training (目标检测+定位)
GLIP 模型统一了目标检测(object detection)和定位(grounding)两个任务,构建了一个统一的训练框架,从而将两个任务的数据集都利用起来。再配合伪标签的技术来扩增数据,使得训练的数据量达到了前所未有的规模。在训练完成之后,直接以 zero-shot 的方式在 COCO 数据集上进行测试,达到了 49.8 AP。
2023-03-06 11:11:30
3516
1
原创 论文阅读-Attention Bottlenecks for Multimodal Fusion(多模态特征融合)
本文提出的模型在与其他模态共享之前,对每个模态的信息进行整理和“浓缩”。核心思想是引入一小部分 “注意力瓶颈” 的潜在融合单元,层中的跨模态相互作用必须通过这些单元执行。作者证明了这种 “瓶颈” 结构优于其不受限制的版本,且计算成本较低。
2023-03-02 11:08:41
2014
1
原创 论文阅读-DDFN: Decoupled Dynamic Filter Networks解耦的动态卷积
动态卷积的参数量从普通静态卷积的 (c × c × k × k ) 提升为 (c × c × k × k × h × w),参数量显著增加,计算复杂。为了降低计算量,作者提出了解耦的思路,把 (c × h × w) 分解成 (h × w + c),即先计算空间位置的动态卷积,再计算通道上的动态卷积。
2023-02-20 14:10:13
1187
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人