
深度 学习论文与相关应用
文章平均质量分 89
本专栏专注于深度学习在各个领域的论文以及相关应用,包括但不限于图像,广告,语音。跟大家一起实时跟进深度学习在各行各业的发展。
AI记忆
这个作者很懒,什么都没留下…
展开
-
FaceChain团队NeurIPS 2024新作TopoFR,拓扑对齐的人脸表征模型
当前人脸识别研究集中于设计高效的基于Margin损失函数和复杂的网络架构,以提升卷积神经网络捕捉人脸细节特征的能力。无监督学习和图神经网络的成功显示了数据结构对模型泛化能力的重要性。尽管大规模人脸识别数据集包含丰富的结构信息,但目前尚无研究探讨如何利用这些信息提升模型在实际场景中的泛化性能。本文提出TopoFR,将大规模人脸数据集中的内在结构信息融入隐层空间,以显著提高人脸识别模型在真实环境中的泛化能力。原创 2024-10-29 08:30:00 · 2825 阅读 · 0 评论 -
FaceChain风格广场发布:开源自定义人像写真风格LoRA模型训练,海量风格共享社区一键式调用,1张照片10秒钟生成风格化写真
为了进一步拓展写真风格的多样性和使用便捷性,在最新版本的FaceChain中,开源了人像写真风格LoRA模型的自定义训练和共享功能,通过将模型上传至风格广场的形式,使得海量写真风格实现共享社区一键式调用,走向风格化人像写真新纪元。原创 2024-07-17 07:45:00 · 2310 阅读 · 6 评论 -
探索视频合成新境界:加快加长视频生成,PAB加速与ExVideo延展技术介绍
随着人工智能技术的不断进步,视频合成领域正迎来前所未有的发展机遇。本文介绍近期两项视频生成方向的创新技术:PAB(Pyramid Attention Broadcast)和ExVideo。这两篇文章合在一起主要介绍如何提升视频生成的速度与长度(当前视频生成主要瓶颈方向之一),从而实现更加高效和多样化的视频内容创作。原创 2024-07-05 07:30:00 · 3333 阅读 · 0 评论 -
Cambrian-1:探索以视觉为中心的多模态LLM新纪元
本文提出Cambrian-1,这是一系列以视觉为中心的多模态大型语言模型(MLLMs),由谢赛宁与LeCun领导的团队研发,主张通过强化视觉表征来提升MLLM性能,而非仅增强语言模型。Cambrian-1通过评估20多种视觉编码器,提出新的基准CV-Bench,旨在改善视觉基础,与Mini-Gemini以及LLaVA-NeXT相比,性能有显著提升。原创 2024-06-28 07:30:00 · 3246 阅读 · 0 评论 -
CVPR最佳论文:谷歌基于Spectral Volume从单图生成视频
本文提出了一种新颖的方法来模拟场景运动的图像空间先验。通过从真实视频序列中提取的自然振荡动态(如树木、花朵、蜡烛和衣物随风摆动)学习运动轨迹,作者将长期运动建模为傅里叶域中的频谱体积。给定单张图片,训练好的模型使用频率协调的扩散采样过程预测频谱体积,进而转换为整个视频的运动纹理。结合基于图像的渲染模块,预测的运动表示可以用于多种应用,例如将静态图像转换为无缝循环视频,或允许用户与真实图像中的对象进行交互,产生逼真的模拟动态。原创 2024-06-21 11:28:31 · 2147 阅读 · 0 评论 -
CVPR最佳论文:探索RAHF模型捕捉人类反馈在T2I领域的创新实践
这篇论文由加州大学圣地亚哥分校、谷歌研究院等机构的研究人员合作完成,专注于文本到图像生成模型的改进。针对生成图像中存在的伪影、与文本不一致和美学质量问题,研究团队采用丰富人类反馈信号的方法,通过标记图像问题区域和文本中未准确表示的词汇,收集了18,000张图像的反馈(RichHF-18K)。他们训练了一个多模态变换器模型,自动预测反馈以提升图像生成质量,该方法在Muse等模型上验证了其有效性和泛化能力。研究还计划公开数据集,促进社区研究。原创 2024-06-20 11:53:57 · 2397 阅读 · 1 评论 -
视频与音频的交响:探索达摩院VideoLLaMA 2的技术创新
VideoLLaMA 2是阿里巴巴DAMO Academy团队开发的视频大型语言模型,专注于提升视频和音频任务的空间-时间建模与音频理解。该模型引入了新的时空卷积连接器,强化了对视频时空动态的捕捉能力,并通过联合训练集成音频分支,增强了多模态理解。在MC-VQA、OE-VQA和VC任务中,VideoLLaMA 2展现了与顶尖开源模型相媲美的性能,接近一些专有模型。原创 2024-06-19 10:32:36 · 4262 阅读 · 1 评论 -
图像生成新篇章:Stable Diffusion 3 Medium开源评析
在数字艺术与AI的交汇处,Stable Diffusion 3(SD3)Medium版本的开源标志着技术革新的新篇章。继3月份我在优快云上发表的SD3技术博文后,这一新里程碑的实现,展示了AI在图像生成领域的显著进步。通过Hugging Face平台的开源,SD3 Medium不仅为艺术创作提供了新土壤,也推动了文生图社区的发展。尽管存在挑战,社区的协作和技术创新将不断解锁创造潜力,引领我们进入数字艺术的新纪元。原创 2024-06-14 08:00:00 · 4154 阅读 · 5 评论 -
Bengio新作Aaren:探索Transformer性能与RNN效率的融合
本文提出了一种新的注意力机制,名为Aaren,它将注意力视为一种特殊的递归神经网络(RNN),能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练,而且能够在推理时高效地更新新令牌,仅需要常数内存。实验表明,Aaren在四个流行的序列问题设置(强化学习、事件预测、时间序列分类和时间序列预测)的38个数据集上与Transformer性能相当,同时在时间和内存效率上更胜一筹。原创 2024-06-04 08:00:00 · 6010 阅读 · 1 评论 -
FaceChain-FACT:开源10秒写真生成,复用海量LoRa风格,基模友好型写真应用
FaceChain-FACT:开源10秒写真生成,复用海量LoRa风格,基模友好型写真应用。FaceChain-FACT的代码和模型目前已经在github和modelscope创空间上同步开源。FaceChain-FACT具有简单的交互式界面设计,只需一张人物形象图片和简短的操作,即可实现无限风格写真和固定模板写真的生成。同时,FaceChain-FACT还支持包括指定人物姿态、自定义风格LoRA模型、以及多人模板写真等进阶功能。原创 2024-05-29 08:00:00 · 4094 阅读 · 1 评论 -
Lumina-T2X:大型扩散DiTs在多模态内容生成中的新篇章
Lumina-T2X是由上海人工智能实验室开发的基于流匹配的扩散变换器(Flag-DiT)系列,它能够根据文本指令生成图像、视频、3D对象和音频。该框架通过标记化潜在的空间时间并使用如[nextline]和[nextframe]的占位符,实现了不同模态和分辨率的统一表示。Lumina-T2X允许在单一框架内训练不同模态,并在推理时灵活生成多模态数据。集成了DiTs、流匹配、RoPE和RMSNorm等技术,它支持高达70亿参数的模型,上下文窗口可达128K标记。Lumina-T2I模型,以5亿参数运行,训练成原创 2024-05-23 10:23:39 · 2787 阅读 · 0 评论 -
视觉叙事的艺术:StoryDiffusion打造一致性图像/视频故事创作
本文提出了一种名为StoryDiffusion的新方法,用于生成一系列内容一致的图像和视频,特别是那些包含主体和复杂细节的图像。StoryDiffusion通过两种新颖的组件来实现这一目标:Consistent Self-Attention(一致性自注意力)和Semantic Motion Predictor(语义运动预测器)。原创 2024-05-16 07:30:00 · 3526 阅读 · 0 评论 -
试衣不再有界:Tunnel Try-on开启视频试衣应用新纪元
本文介绍了“Tunnel Try-on”,一种创新的视频虚拟试衣框架,专注于解决复杂场景下的试衣挑战。该框架通过在视频中创建一个“聚焦隧道”来放大服装区域,有效捕捉服装细节。结合卡尔曼滤波器和注意力层的位置嵌入技术,Tunnel Try-on生成的视频动作流畅且连贯。此外,环境编码器的引入进一步丰富了背景上下文,提升了整体试衣效果。这一技术突破不仅提升了试衣视频的质量,也为电商和时尚行业带来了新的应用前景,同时为虚拟试衣技术的未来发展指明了方向。原创 2024-05-13 07:30:00 · 3337 阅读 · 3 评论 -
一步成像:Hyper-SD在图像合成中的创新与应用
在生成人工智能领域,扩散模型(Diffusion Models, DMs)因其出色的图像生成质量而备受关注,但其多步骤推理过程的高计算成本一直是其广泛应用的瓶颈。本文介绍的Hyper-SD框架是来自字节的一篇工作,通过创新的轨迹分割一致性蒸馏(Trajectory Segmented Consistency Distillation, TSCD)技术,显著提升了图像合成的效率,同时保持了生成图像的高质量。原创 2024-05-09 08:00:00 · 2671 阅读 · 1 评论 -
VASA-1:实时音频驱动的数字人说话面部视频生成技术
本文介绍了 VASA-1,这是一个由 Microsoft Research Asia 开发的框架,用于生成逼真的、音频驱动的说话(面部)视频。VASA-1 能够根据单一静态图像和语音音频片段生成具有视觉情感技能(Visual Affective Skills, VAS)的说话视频。该模型不仅能够产生与音频精确同步的唇部运动,还能捕捉到广泛的面部微妙表情和自然头部运动,从而增强真实感和生动感。从方法与效果上来讲,VASA-1都具有较大的突破,为虚拟人交互、虚拟人面部视频生成、AI译片等都提供了更为坚实的基础。原创 2024-04-26 08:00:00 · 5526 阅读 · 1 评论 -
VAR:自回归家族文生图新SOTA,ImageNet上超越Diffusion与DiTs
本文提出了一种名为视觉自回归(VAR)建模的新范式,它通过将图像的自回归学习重新定义为“下一尺度预测”。VAR模型采用多尺度VQ-VAE来编码图像,并利用自回归Transformer来学习图像的分布。这种方法不仅提高了图像生成的质量,还显著加快了推理速度。VAR模型在ImageNet 256×256基准测试中的表现超越了现有的自回归和扩散模型,其FID和IS分别达到了1.80和356.4,同时推理速度提升了20倍。文章中甚至做了与DiTs相同量级参数的对比,指标上也有明显优势。原创 2024-04-17 10:57:51 · 3871 阅读 · 0 评论 -
Mini-Gemini: 探索多模态视觉语言模型的新境界
最近,一篇名为“Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models”的文章在arXiv上发表,为我们展示了一个简单而有效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。它即能直接提升图像感知能力,也能作为多模态环境下图像生成任务的前置prompt生成器。主要探索了如何增强图像全局感受野,以及探索了如何融合现有ocr工具来增强图像中文本感知能力。原创 2024-04-16 08:00:00 · 2499 阅读 · 1 评论 -
视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴!
随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看究竟哪些模块值得借鉴!原创 2024-03-21 10:06:16 · 5471 阅读 · 4 评论 -
AIGC元年大模型发展现状手册
AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a.) LLM大模型通过深度学习和自然语言处理技术,实现了对文本的高效理解和生成;b.) 多模态大模型则能够整合文本、图像、声音等多种信息,实现跨模态的交互和理解;c.) 图像/视频生成大模型则进一步将AI技术应用于视觉内容创作,为用户提供了全新的创作以及内容消费体验。本文将做相关技术内容展开讨论与纪要。原创 2024-03-18 09:53:49 · 6431 阅读 · 14 评论 -
【NeurIPS】解决离线强化学习中的互模拟缺陷,FaceChain团队联合出品
本文旨在解决离线强化学习中的互模拟缺陷。强化学习中的表征学习对于控制任务而言至关重要,将来的一个重要研究方向是将大模型为基础的文本或图像信息与控制任务对应的状态表征做进一步对齐。这里,互模拟为基础的表征算法可能是一个重要的未来研究方向,可能对多模态数据与控制任务的对齐起到关键性作用。原创 2024-03-15 09:45:22 · 2853 阅读 · 0 评论 -
【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品
本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该任务涉及到两个核心的挑战,首先如何从音频中解耦出说话人的身份(性别、年龄等语义信息以及脸型等结构信息)、说话内容以及说话人传递的情绪,其次是如何根据这些信息生成多样化的符合条件的视频,同时保持视频内的一致性。原创 2024-03-15 09:45:07 · 4303 阅读 · 5 评论 -
【ACMMM】Semi-supervised Deep Multi-view Stereo,FaceChain团队联合出品
本文探究了多视图立体视觉三维重建在半监督学习设置下的可行性,提出了一套新的半监督训练框架,在仅使用5%的有标注数据的情况下,依然可以取得大幅超过原始全监督基准模型的性能。原创 2024-03-14 11:16:14 · 3176 阅读 · 0 评论 -
【IJCAI】CostFormer即插即用的MVS高效代价体聚合Transformer,FaceChain团队出品
本文提出一种基于代价体Transformer的多视角立体三维重建方法,该方法设计了一种高效的Transformer,即CostFormer,改善了卷积神经网络代价体聚合的缺陷,从而进一步改善整体重建的效果;CostFormer做到深度感知的同时也克服了全局自注意力机制指数级别增长复杂度带来的显存的耗尽以及推理时间的大幅增长。CostFormer是一种可即插即用于当前基于卷积神经网络的多视角立体方法。原创 2024-03-14 11:15:43 · 2841 阅读 · 0 评论 -
【ICCV】PointDC,基于深度聚类的无监督3D场景语义分割,FaceChain团队联合出品
针对无监督3D场景的语义分割,提出一套基于深度聚类的自监督学习算法,可以大幅提升3D分割的效果(ScanNet-v2 (+18.4 mIoU)、S3DIS (+11.5 mIoU))。原创 2024-03-12 11:14:45 · 3632 阅读 · 0 评论 -
【CVPR】Facechain-SuDe通用保主体ID属性编辑内容创作
主体驱动生成(subject-driven generation)任务由于能够实现对特定主体的定制化生成,已经受到了许多关注。相关的工作如Dreambooth、Custom Diffusion等也取得了不错的效果。然而我们发现定制化的主体往往不能实现良好的属性编辑,因此,本文着重研究在保持主体的身份(identity)保真度的前提下,丰富主体属性编辑的能力。原创 2024-03-12 11:14:36 · 2757 阅读 · 0 评论 -
【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品
本文介绍由FaceChain团队出品的AIGC时代下的SOTA人脸表征提取器TransFace,可广泛应用于人物写真、人物视频等人物类数字孪生的应用研究中。原创 2024-03-08 11:09:12 · 3881 阅读 · 7 评论 -
【IJCV】基于概率表征的半监督对比学习框架,FaceChain团队出品
本文提出了基于概率表征的对比学习框架(PRCL),用于半监督语义分割算法。文章中分别引入了概率表征,全局分布原型,虚拟负样本等模块。最终实验表明,提出的PRCL框架在半监督设定下模型的分割能力达到了state-of-the-art的性能。此外,大量的消融实验也表明我们提出的模块的有效性。原创 2024-03-08 10:18:46 · 2520 阅读 · 0 评论 -
ICLR 2024 Oral InfoBatch 助力大模型时代训练加速!FaceChain与NUS尤洋团队最新工作!
在本篇工作中,研究者从数据迭代这个角度切入进行了研究。长久以来,数据集的迭代方式大都采用随机迭代。对此,作者提出了InfoBatch框架,根据网络对样本的拟合情况进行动态剪枝采样的方法,并利用重缩放(rescaling)来维持剪枝后的梯度更新(Gradient Update)期望,以此在性能无损的情况下提高训练效率,加快训练速度。在CIFAR10/100、ImageNet-1K(分类)和ADE20K(语义分割)上,InfoBatch无损节省了40%的总开销(时间和计算);在检测任务上,InfoBatch原创 2024-01-17 10:53:07 · 2756 阅读 · 1 评论 -
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
作为AI人像写真开源项目的佼佼者,FaceChain凭借其丰富多样的风格模版和卓越的人像保真度,深受社区的喜爱并已在商业应用中得到了广泛的应用。近期,FaceChain团队推出了全新的版本——FaceChain FACT。这一创新版本摒弃了传统的人物模型训练过程,能够直接生成zero-shot目标人像,引领AI人像生成进入了无需训练的单阶段时代。原创 2024-01-08 10:44:27 · 11875 阅读 · 4 评论 -
FaceChain V2,Human AIGC开源应用平台
facechain是一个可以用来打造个人数字形象的深度学习模型工具平台。用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身。V2核心功能迭代:one-shot训练、无限风格计划、SDXL提升图像细腻度,增加虚拟试衣、说话人视频、动漫风格化等功能。原创 2023-12-08 10:15:58 · 4943 阅读 · 3 评论 -
FaceChain集成最强开源SDXL,生成人像质感拉满!
FaceChain,一款备受欢迎的AI写真开源项目,目前已与最强大的开源生图模型SDXL完美融合!这将为用户带来前所未有的高质量AI写真体验。FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身。结合不同的风格模型和写真模版,可以生成超乎想象空间的个人写真作品。更有意思的是,FaceChain还集成了说话人与虚拟试衣的功能,让你的数字替身更加生动真实,更具有商业价值与落地场景。原创 2023-11-27 11:07:25 · 7832 阅读 · 0 评论 -
AIGC视频生成/编辑技术调研报告
随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状,包括不同技术路线的优劣势,以及该领域当下面临的核心问题与挑战。原创 2023-11-09 10:57:56 · 3595 阅读 · 0 评论 -
工业级开源facechain人物写真sd-webui插件使用方式
本文介绍如何在sd webui中安装facechain插件使用工业级人物写真功能。原创 2023-10-19 11:25:56 · 1556 阅读 · 0 评论 -
facechain人物写真生成工业级开源
facechain人物写真应用自8月11日开源了第一版证件照生成后。目前在github(。facechain社区非常活跃,fork、commit数都很大,相应截图如下:facechain人物写真主要功能如下图所示:近期活跃的更新,支持了很多新的feature,下面我们节选了部分核心功能作展示。原创 2023-10-13 10:50:29 · 2815 阅读 · 2 评论 -
AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。原创 2023-10-09 10:08:02 · 3330 阅读 · 0 评论 -
AIGC玩转卡通化技术实践
伴随着持续不断的AIGC浪潮,越来越多的AI生成玩法正在被广大爱好者定义和提出,图像卡通化(动漫化)基于其还原效果高,风格种类丰富等特点而备受青睐。早在几年前,伴随着GAN网络的兴起,卡通化就曾经风靡一时。而今,伴随着AIGC技术的兴起和不断发展,扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍阿里开放视觉团队的卡通化技术实践。原创 2023-09-27 10:31:52 · 3043 阅读 · 2 评论 -
FaceChain应用生态爆发?无限可能的人物应用等你加入探索!
在过去的不到一个月,FaceChain开源项目从无到有,成功突破了相关技术瓶颈,GitHub()获得了超过4.6K star,为未来的应用发展奠定了坚实的基础。以下是我们已经实现的一些核心功能:最少1张照片就可以训练生成特定的人物LoRA,生成的人物写真照片形象鲜明又颇具美感。可以精准指定人物的动作和姿态已经打通LoRA风格的无限扩展,例如仙女风、拍立得港风、花园婚纱、冬季汉服、校园风等。。原创 2023-09-05 11:18:21 · 4272 阅读 · 0 评论 -
【FaceChain风格DIY手把手教程】无限场景风格LoRA与固定人物LoRA的融合(4Kstar!)
AIGC人物写真开源项目FaceChain风格DIY手把手教程,无限场景风格LoRA与固定人物LoRA的融合。原创 2023-08-28 16:31:53 · 5210 阅读 · 0 评论 -
WordArt Designer:基于用户驱动与大语言模型的艺术字生成
本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架,WordArtDesigner。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5turbo驱动的LLM引擎可以解释用户输入,并为其他模块生成可操作的提示,从而将抽象概念转化为有形的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo模块提供的语义布局的基础上,StyTypo模块辅助生成平滑、精细的图像。Tex原创 2023-08-23 13:36:25 · 3398 阅读 · 0 评论 -
魔搭开源FaceChain个人写真项目,大幅提升写真多样性,登顶github趋势榜首!
一周时间获取超过3Kstar,连续在githubtrending榜单蝉联top!开发者们纷纷标记star(https://github.com/modelscope/facechain),目前正在演变成热点开源项目。原创 2023-08-21 17:32:44 · 5123 阅读 · 4 评论