ControlNet新玩法爆火:画出可扫码插画,内容链接任意指定

部署运行你感兴趣的模型镜像
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

一组神秘的“虚拟老婆”照片,最近在国内外社交媒体上传疯了。

706639760cc720e8a05a3d48a3391c76.png

怎么回事?

试着用手机扫一下,就能发现其中的玄机——

原来这些看起来颇为自然的照片,都是藏了二维码的图像。它们不仅能被手机相机识别,跳转的网站还都是有效的:

c0c288d6db83334f994f52d1852b99e6.png

从推特到Reddit,每隔几条就能刷出这些二维码照片,下面全是一片“竟然扫出来了”的惊叹声。

3668582121e3e38e0a842782e5e43f1f.png
0aa6d26d02d5940dff433b0ade4dbcf5.png
d35ec22e4b77d7799822831d28e34b52.png

最关键的是,这些照片并非手动绘制,而是用Stable Diffusion生成的,背后再一次加持了神奇的ControlNet魔法。

生成的二维码图像风格,也远非只有二次元虚拟人像这一种,一起来看看~

8种图像风格任意可选

除了上述的二次元插(lao)画(po)风格以外,作者们还展示了另外8种二维码图像的生成效果。

这是立体风格的二维码图像,看起来就像一张真正的城市照片一般:

fd693ddc416a22feef8993b42b0f2f7b.png

有网友感叹,简直可以在物理世界中构造一个真的二维码城市了:

甚至它只能在特定的地点、特定的日子、特定的时间被扫出来,有寻宝游戏内味了。

52944a13de5c22bb01647d9e4ff86b15.png

这类立体作品不仅细节可控(如更多的草木植被),还可以改变风格,生成更具机械感的科幻二维码图像:

69e5d713ddf2372fc36bb1b3fe344d7a.png

3D城市看得不过瘾,还有2D抽象风格的作品,数据都藏在小房子里了:

6a98abc292e5050a4099c1763723fee0.png

除此之外,二维码还能被融入中国传统纹样风格中,或是被巧妙放置在瓷器或壁画一类的装饰物里:

1ae928631c7ecb367b54765d00c562f6.png

更具艺术性的水墨风格也能hold住,无缝衔接画作笔迹:

940a738af0577a25bcc6a604dfa4da44.png

又或是这种水彩风格的画作:

e3319c49eebec6fcbcf3b299afa5602f.png

日式的浮世绘风格也没问题:

8a032aa2ea5bc5541a5403de8f04c9e7.png

还能嵌进PCB风格图像里,以后电路板要找售后,直接扫码就行(doge):

16ff7f7b9cd891e2f75e82ce6e0ec484.png

显然,除了二维码图像可控,模型就连插画风格都能很好地控制。

这背后究竟是依靠什么技术实现的?

LoRA和ControlNet齐出动

要想实现这种图像风格+二维码可控的效果,需要Stable Diffusion结合LoRAControlNet一起实现。

其中,LoRA负责控制整体的图像风格,ControlNet则负责确保二维码“放进”了图像中。

LoRA全称Low-Rank Adaptation of Large Language Models,能很好地实现少样本学习,从而对Stable Diffusion的图像风格生成进行更精准的控制。

换而言之,最少只需要几十张同种风格的图片,就能训练一个LoRA,用来调教Stable Diffusion生成的效果。

目前,比较有特色的如中国传统风格和浮世绘风格的图像,作者们都已经在CivitaiHugging Face等平台上开源了对应的LoRA模型。

像浮世绘风格LoRA模型,就已经可以在Civitai上直接下载:

009ddca365c9ae944451cff556901ae6.png

训练这样一个浮世绘风格的LoRA模型,并不需要很多照片,像这个模型就只用了46幅葛饰北斋《富岳三十六景(追加十景)》的浮世绘。

a85cfee5efcb49ea16d328cad105cc99.png

风格变化更加多样的,如生成不同中国传统纹样的图片,也只需要近百张图片训练:

2f603b3d35c4effc80b08bcba91c84c1.png

就可以得到能画出不同纹样的LoRA模型:

e446ffe43e4a8114ada145f4434199c3.png

QR Code ControlNet则是作者们新训练的一个二维码图像生成专用ControlNet模型,目前还在不断优化中。

作者们尝试了不同的Stable Diffusion Checkpoint、LoRA和QR Code ControlNet的组合,生成了上面这些二维码图像的效果。

值得一提的是,结合最近的PS新出的Generative Fill功能,这些二维码还能被很好地嵌进一大块AI生成图像中:

ac73f4b58747a7c176d37dde6326940f.png

有网友调侃,未来就连广告也会变得更好看了。

1345b0c298613b687203b16eea90c8a8.png

作者介绍

制作这个二维码生成项目的作者一共有四位,分别来自中国传媒大学和北京航空航天大学。

其中,倪豪陈柏宇是中国传媒大学大四本科生,王照涵是中国传媒大学一年级研究生,陈智勇是北京航空航天大学大四本科生。

在这次的AI二维码图像生成项目前,倪豪和陈智勇就已经做出过一个参数化二维码生成器,不过主要采用的还是图形学方面的技术。

ab8bd14b601a83f9bef174d66e61ae4c.png

据倪豪介绍,他们之前的研究方向主要集中在图形学和交互艺术上,随着这段时间AIGC爆火,团队也对这方面的技术产生了兴趣。

这段时间里,他们开发了不少不同风格的LoRA模型,以及可控制光影的ControNet等,目前模型也都已经放在Civitai上。

fe875ec6ea511bcf72a02b7b28ee0f2f.png

团队表示,目前这个二维码图像生成模型还在持续优化中,后续如果有更多的进展更新,也会同步到这个网站上。

可以码住期待一波了~

团队已开发的AI模型:
https://aigc.ioclab.com/index.html

参考链接:
[1]更多二维码效果展示:https://mp.weixin.qq.com/s/i4WR5ULH1ZZYl8Watf3EPw
[2]https://www.reddit.com/r/StableDiffusion/comments/141hg9x/controlnet_for_qr_code/
[3]https://twitter.com/dahbiahmed/status/1665778398084431872

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

9355a3831b934cacea08d5dbff48266d.png

点这里👇关注我,记得标星哦~

您可能感兴趣的与本文相关的镜像

Wan2.2-T2V-A5B

Wan2.2-T2V-A5B

文生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值