Meta提出WAM，一个可以给图片加上水印的模型

原创于 2024-11-26 21:33:05 发布 · 906 阅读

CC 4.0 BY-SA版权

文章标签：

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

Watermark Anything with Localized Messages

【要点】：提出了一种新的深度学习模型Watermark Anything Model（WAM），能够针对局部区域进行图像水印嵌入与提取，提高了水印在图像中的不可见性和鲁棒性，并能在小区域中嵌入和提取多个独立信息。
【方法】：通过深度学习模型将水印不可见地嵌入图像，并训练提取器将接收到的图像分割为水印和非水印区域，从而恢复隐藏信息。
【实验】：实验在低分辨率下联合训练模型，并在没有感知约束的情况下进行，之后进行感知性和多水印的微调。使用的数据集未具体提及，但实验结果表明WAM在不可见性和鲁棒性方面与现有先进方法相当，特别是在对抗图像修复和拼接攻击时，即便是在高分辨率图像上。WAM还能在拼接图像中定位水印区域，并从多个小于图像表面积10%的小区域提取出具有小于1比特错误的32位独立信息。
【链接】：https://www.aminer.cn/pub/6732e46401d2a3fbfc3883d9

Region-Aware Text-to-Image Generation Via Hard Binding and Soft Refinement

【要点】：本文提出了RAG方法，一种基于区域描述的区域感知文本到图像生成方法，通过硬绑定和软细化实现精确布局组合，并允许用户在不改变其他区域的情况下重新绘制特定不满意的区域。
【方法】：RAG方法将多区域生成分解为两个子任务：确保区域提示正确执行的个体区域构建（区域硬绑定）和消除视觉边界、增强相邻交互的总体细节细化（区域软细化）。
【实验】：通过定性和定量实验，使用未知的特定数据集，证明了RAG在属性绑定和对象关系方面优于之前的无调整方法。
【链接】：https://www.aminer.cn/pub/6732e39201d2a3fbfc337a72

Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation

【要点】：本文提出Hallo2方法，实现了长达数小时、4K分辨率的高质量音频驱动人像图像动画，并引入文本提示增强生成内容的多样性和控制性。
【方法】：通过在图像空间中采用增强策略，如引入带有高斯噪声的patch-drop技术，以及向量量化潜在代码和时空对齐技术，提高了视频的视觉一致性和时间连贯性。
【实验】：在HDTF、CelebV和新增的“Wild”数据集上进行广泛实验，结果表明Hallo2方法在长时双人像视频动画生成方面达到了最新技术水平，能够生成持续数十分钟的高质量内容。
【链接】：https://www.aminer.cn/pub/670889ad01d2a3fbfc532774

MinerU: an Open-Source Solution for Precise Document Content Extraction

要点】：论文介绍了MinerU，一个高精度的文档内容提取开源解决方案，显著提高了不同类型文档内容提取的质量和一致性。
【方法】：MinerU利用PDF-Extract-Kit模型进行内容提取，并通过精细调整的预处理和后处理规则确保结果的准确性。
【实验】：研究通过实验验证了MinerU在各种文档类型上均保持高性能，具体数据集名称未在摘要中提及，但项目开源代码可在提供的GitHub链接中找到。
【链接】：https://www.aminer.cn/pub/66fa128101d2a3fbfc73d656

garak: A Framework for Security Probing Large Language Models

【要点】：本文提出了garak框架，用于发现和识别大型语言模型（LLM）的潜在安全漏洞，并强调了对LLM安全性的全面评估方法。
【方法】：garak框架通过结构化探测LLM，发现并记录模型弱点，以促进对模型安全性的深入讨论和策略制定。
【实验】：本文未具体描述实验过程，但提到garak框架的输出可用于描述目标模型的弱点，并促进对特定上下文中漏洞构成的讨论。文中未提及具体的数据集名称。
【链接】：https://www.aminer.cn/pub/6670ea1301d2a3fbfc3d4f51