- 博客(19)
- 收藏
- 关注

原创 RingID:用于多水印溯源的环形水印
从数学角度证明了树环水印鲁棒性的来源之一是初始潜变量的分布偏移,偏移来源于逆傅里叶变换到空间域后树环舍弃了复数的虚部,作者进一步证明这种偏移本身就是一种很好的水印方法,并提出了可用于溯源的改进版树环水印。
2025-01-24 11:14:58
257

原创 Watermark Anything with Localized Messages:万物皆可局部水印
作者的WAM还可以做到定位篡改。在之前的EditGuard水印中,定位篡改是通过半脆弱水印实现的,鲁棒水印辅助检测是否篡改,半脆弱水印定位篡改;它的编码也很有意思,编码先在潜空间中编码语义水印,如何将这个语义水印图像映射回空间域后再以残差的方式再加一次水印,所以WAM的水印是语义水印+残差水印的结合。第二种思路就是先把A的某一部分分割出来,然后单独嵌入水印,这时如果拼接到B上,我们在提取水印的时候是可以提取的,但是这种版权保护的方法太麻烦,需要用户给A图像的每个部分都先分割出来再嵌入水印,可行但不可取。
2025-01-24 10:59:44
560
原创 扩散模型与注意力机制的个人理解
由上文的提示词处理过程,我们得到了无提示词的Embedding(prompt=''),即下面uncond_embeddings,术语叫做。其加噪的潜变量不依赖前一步的噪声向量,可以跨步采样(原理没理解),这样的跨步采样可以减少采样步数,提高效率。UNet用来预测噪声,也就是说给定一个含噪声的数据 xt ,UNet 的目标是预测出噪声 ϵ ,使得。而潜变量就是潜空间的一个具体例子,潜变量的。在时间步 t,向初始潜变量 x 添加噪声,生成带噪声的潜变量 xt。其中,αt 是噪声系数,随着时间步 t 的增长,
2025-03-12 19:37:34
904
原创 自回归图像学习——FSQ RQ-VAE个人理解
这样的话自回归模型的计算成本也会减少(但是d也不能太小,否则会损失很多图像信息),可能VQ中连续向量的维度d是三位数,因此,RQ-VAE中的码本是分层设计的,也就是说有多层码本,每层的码本大小相同。这样的码本大小可以说是相当大的,于是就有人提出了FSQ方法做离散,想要优化VQ方法并缩小码本大小。假设VQ中,一个d维的连续向量做映射需要一个分出K类的大码本,现在FSQ中,RQ-VAE的设计也是为了解决VQ中码本过大的缺点,个人理解RQ的思想就是。寻找码本中的最相似向量,因此VQ-VAE相当于将码本分为了。
2024-12-22 16:19:31
549
原创 自回归图像学习——AE VAE VQ-VAE区别的个人理解
更仔细一些,因为目标是让Embedding空间中的离散变量贴近编码器输出,因此应该是令Zq贴近Ze,而不是Ze贴近Zq(注意两者区别),实现的时候使两个的loss权重不同即可。VQ-VAE实际上是AE的变体,因为其编码器输出的是连续隐变量,而不是VAE的均值方差,VQ就是量化器,整体思想就是在AE输出连续变量后,AE可以理解为一个单纯的图像压缩器,其编码器用来做特征提取,提取图像的隐变量;这个codebook中的变量是离散的(即有限的,训练后固定的,个人理解codebook中变量的离散性。
2024-12-21 15:31:59
1243
原创 图像矩相关知识个人总结二(理论)
固定的,因此现有设计正交基函数的方法都是在径向基函数的定义上创新。在这方面,主要有三种类型的正交函数作为定义,包括雅可比多项式(Jacobi polynomials)、谐波函数(harmonic functions)和特征函数(eigenfunctions)。相关的相位变化,但其幅度保持不变,而相位变化是可以通过归一化处理的,因此极坐标矩具备旋转不变性。根据基函数的定义坐标系,可以将基函数分为笛卡尔基函数和极坐标基函数,矩也是此样定义。对于正交基函数的角函数部分来说,其形式是。′时为1,否则为0。
2024-12-19 15:16:05
247
原创 SepMark水印论文阅读与复现
同样测试了800张图像,鲁棒水印误码率平均为0%,半脆弱水印误码率平均为47%,达到随机解码效果,可见两种水印对于Deepfake攻击都达到了目标效果。测试了800张图像,鲁棒水印误码率平均为7%,半脆弱水印误码率平均为45%,达到随机解码效果,可见两种水印对于Deepfake攻击都达到了目标效果。同样测试了800张图像,鲁棒水印误码率平均为0%,半脆弱水印误码率平均为0%,说明半脆弱水印对物理攻击是鲁棒的。同样测试了800张图像,鲁棒水印误码率平均为0%,半脆弱水印误码率平均为0%,说明半脆弱水印。
2024-12-19 14:56:10
1290
5
原创 图像矩相关知识个人总结一(理论)
当我们计算这两个矩时,每个矩不仅包含关于图像的独特信息,还包含由c表示的重叠信息。因此,当我们需要计算数字图像的连续矩时,必须将这些连续的积分近似为离散的求和。是用于描述图像形状特征的数值参数,通过将图像函数与基函数进行积分,从而提取出描述图像形状的特征。在非正交系统中,由于基函数之间的重叠,一些矩可能不是完全独立的,因此在描述图像时不是严格必要的。而且,个人理解除了基函数的连续或离散性影响矩,图像函数的连续与否也同样影响矩。的角度来看,冗余指的是可以丢弃的信息量,而不损失对整体理解的显著性。
2024-12-19 14:52:03
354
原创 论文汇报:自适应水印攻击 Adaptive attack
它的主要思想就是让解码器考虑到水印受攻击的情况,因为对于普通不带水印的图像来说,解码器的水印检测率(Bit ACC)在50%左右,无攻击的带水印图像的水印检测率应该在阈值t之上(这个t由水印长度和p-value共同决定),这就是单尾检验。因为作者在训练时每次都随机生成嵌入的水印,如果将水印设置固定就可以很快收敛,但是固定水印是不符合攻击场景的,这里就比较头疼了,笔者之后进行了简单的消融实验,猜测不能收敛的原因应该是。在训练好替代解码器之后,作者要做的就是设计攻击,破坏解码出的水印。这篇水印攻击的思想就是。
2024-12-14 11:22:37
847
原创 FakeShield 用大模型做可解释的被动检测
作者提出了可解释的IFDL任务,并设计了FakeShield,这是一个多模态框架,能够评估图像的真实性,生成篡改区域掩码,并基于像素级和图像级篡改线索提供判断依据。此外,作者利用GPT-4o增强现有的IFDL数据集,创建了多模态篡改描述数据集(MMTD-Set),用于训练FakeShield的篡改分析能力。同时,作者结合了领域标签引导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),以解决各种类型的篡改检测解释,并实现由详细文本描述引导的伪造定位。
2024-10-24 12:26:02
402
1
原创 Deepfake检测研究方向:背景类、简要技术路线资料
Deepfake检测方向背景类、简要技术路线类资料,内容参考:瑞莱智慧DeepReal产品。
2024-09-22 19:21:08
236
原创 Stable Signature(Meta) 代码汇报
代码主要包括四个部分:微调decoder、生成图像、解码水印、指标评价。实际并没有嵌入水印,只是调整decoder参数,使得生成的图像能够提取出固定的水印。
2024-09-19 15:39:08
415
原创 树环水印改版——Robust Image Watermarking using Stable Diffusion测试
论文亮点是提出了一个可训练的潜变量ZT,这个潜变量一开始是由原始图像经过DDIM Inversion产生,然后加水印,之后经过N次的迭代训练输出一个与原始图像尽可能相同的潜变量,用这个潜变量经过Stable Diffusion生成的带水印图像此时与原始图像类似,最后与原始图像自适应相加。在论文的loss设计中,作者使用了这个感知损失,Watson-VGG perceptual loss 是一种用于衡量图像感知质量的损失函数,它基于人类视觉感知的原理,尤其关注图像的视觉内容。而本论文的初始潜变量是。
2024-08-23 11:16:35
924
原创 树环水印与高斯阴影水印结果分析
树环水印Tree ring与高斯阴影水印的AutoDL镜像已共享,可以直接改参数做攻击测试,树环水印测试需要有wandb平台的账号。Rand水印模式测试的CLIP Score与Ring模式类似,对于所有攻击其值保持不变,即攻击对于模型的图像生成能力影响很小。Zero水印模式测试的CLIP Score与Ring模式类似,对于所有攻击其值保持不变,即攻击对于模型的图像生成能力影响很小。有水印FID为85.905。可以看到,加入树环水印后,CLIP的变化并不大,而且面对轻微攻击,CLIP值。
2024-08-19 17:19:43
1909
2
原创 论文汇报:Cover Reproducible Steganography via Deep Generative Models
作者提出了一个基于生成模型可复现封面图像的隐写框架。相同的生成参数下接收者能够重建封面。在这种情况下,作者引入了算术编码用于消息嵌入和提取,与传统的STC。这篇论文对于了解最小失真隐写还是很有帮助的,论文上手难度感觉不小,读这篇论文的时候请教了老师和知乎博主很多,受益匪浅。任务设计了隐写流程。实验结果表明,作者提出的隐写方法比传统的。基于新的隐写框架,作者分别为。方法更安全,时间复杂度更低。
2024-08-11 16:51:13
193
原创 论文汇报:Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images
总结:这篇作者在论述一个观点:同时使用语义特征与低级特征的Deepfake检测方法准确率更高,逻辑论证很强,实验也很全面。作者还特别发布了Deepfake检测的一个高质量数据集: COCO-Fake。缺陷:后续的指标评价内容读起来比较难懂,PPT中这里的内容估计有些问题,最后作者做的对比实验感觉没有太大意义,对比了两个准确率较低的模型。
2024-08-11 16:43:13
199
原创 论文汇报:Faster than lies
缺陷:Adapter设计有点粗糙;实时检测论证方面尚有不足;测试结果与论文略有偏差(低了5-10个百分点);看结果用DenseNet感觉也不错:时间效率换空间效率。总结:CVPR 2024的一篇论文,亮点就是采样了BNext二值神经网络进行特征提取,略微降了准确率但FLOPs提升了3-5倍。
2024-08-11 16:33:46
248
数字逻辑课程设计-多功能数字钟的设计与实现(部分资源未上传,需要的可以私聊作者)
2023-01-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人