
计算机视觉
文章平均质量分 90
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
微信视频号:毛毛AIGC,欢迎关注进一步交流!
展开
-
Sora原理详解
这里,OpenAI 将 DALL·E 3 中介绍的标题生成技术用到了视频领域,训练了一个具备高度描述性的视频标题生成模型,使用这个模型为所有的视频训练数据生成了高质量文本标题,再将视频和高质量标题作为视频 - 文本对进行训练。虽然早期的 AI 生成剧本可能会显得比较生硬,但随着技术的发展,现在的 AI 能够生成更加自然流畅、富有创意的剧本。OpenAI 训练了一个降低视觉数据维度的网络,这个网络接受原始视频作为输入,然后进行视频压缩,也就是降低数据维度,最后输出的是在时间和空间上压缩过的表示形式。原创 2024-09-08 14:17:57 · 911 阅读 · 0 评论 -
动手打造互动虚拟人
【代码】动手打造互动虚拟人。原创 2024-09-03 09:09:50 · 735 阅读 · 0 评论 -
AI视频创作应用
该示例展示了文生视频应用,还包括多种其他生成模式,如文本引导的视频编辑,以及基于姿势、深度、边缘输入结合文本提示进行联合条件下的视频生成。只需上传视频并输入描述该视频的文本提示即可。除了使用应用演示来尝试预训练文生视频模型外,你还可以使用 Tune-a-Video 演示来微调现有的文生图模型,使用自己的文本-视频对。夜晚的丛林中,一只猫头鹰(主体)站在枯树枝上(环境描述),猫头鹰的眼睛在月光下闪闪发亮(动作)。比得兔(主体)开小汽车(主体描述),游走在马路上(环境描述),脸上的表情充满开心喜悦(氛围设定)原创 2024-08-21 10:59:26 · 348 阅读 · 0 评论 -
数字虚拟人原理
通过调整基础形状和纹理的系数,可以生成不同的面部形状和纹理。具体地,头部姿态系数(ρ)可以表示为一个6维向量,其中前3维表示旋转参数(r),后3维表示平移参数(t)。通过调整这些头部姿态系数,可以改变生成的头部动画的姿态,使其与音频内容相匹配。通过从音频中学习生成头部姿态系数(ρ),从而实现了根据音频生成真实的3D运动系数。这些生成的头部姿态系数可以用于调整生成的面部动画,以使其更加逼真和自然。在3D面部重建中,β用于表示面部的表情变化。通过调整β的值,可以改变面部的表情,如微笑、皱眉等。原创 2024-08-21 10:46:35 · 276 阅读 · 0 评论 -
AI视频创作原理
I2VGen-XL由达摩院研发的高清视频生成基础模型之一,其核心部分包含两个阶段,分别解决语义一致性和清晰度的问题,参数量共计约37亿,模型经过在大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,该数据分布广泛、类别多样化,模型对不同的数据均有良好的泛化性。随着文生视频模型的发展,出现了更多的多模态视频文本数据集,以及更好、更通用的数据集。在这个公式中,E是预训练的编码器,x是给定的视频,ϵ是噪声,c是选定的条件,t是时间步长,zt是噪声破坏的潜在表示。AI视频创作的任务面临着多方面的独特挑战。原创 2024-08-17 17:01:04 · 1069 阅读 · 0 评论 -
解读:阿里文娱搜索算法实践与思考
我们的问题是从什么维度去理解视频?得益于深度学习在各个领域的全面发展,现在有能力做相关技术,包括。原创 2021-07-01 15:25:50 · 504 阅读 · 0 评论 -
基于DreamBooth的“妙鸭相机”——一次不太成功的实践
猜测很可能是模型不太能理解 instance_prompt 中“GQS”的含义。可以看到,虽然训练还不够重复不算是特别像,但是比之前版本是好很多了!可以看到,只有第3张有点像“高启盛”,其他甚至不是一个人!先安装所需要依赖的库和配置。原创 2024-08-02 14:18:27 · 111 阅读 · 0 评论 -
动手训练自己的AI绘画LoRA:宝可梦
train_text_to_image_lora.py 中只支持 CLIPTokenizer ,而不支持 ”IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Anime-Chinese-v0.1“的BertTokenizer。为了确保你可以成功运行最新版本的示例脚本,建议从源代码进行安装,并随着示例脚本的频繁更新和安装一些特定示例的要求,保持安装的最新状态。]模型的其他部分,只训练text encoder,以便保留原始模型的生成能力且实现中文概念的对齐。]数据集(100M)和。原创 2024-08-01 10:55:15 · 735 阅读 · 0 评论 -
AI绘画的WebUI与Prompt使用技巧
假设你已经下载了一个名为 “大概是盲盒” 的 LoRA 模型,并将它放入了 stable-diffusion-webui/models/Lora 文件夹中,那么你就可以在 WebUI 中看到并使用这个模型来生成文本,同时可以通过调整权重来控制生成文本的风格。最后,你可以尝试不同的重绘强度和提示来改变一张可爱的女孩照片的风格,将她变成卡通或迪斯尼风格的图像。,其中模型文件名是你想要使用的 LoRA 模型的名称,权重是一个介于0到1之间的数字,0表示完全不使用 LoRA 模型,1表示完全使用它。原创 2024-08-01 09:46:12 · 173 阅读 · 0 评论 -
AI绘画模型之:低成本定制——Textual Inversion、DreamBooth 与 LoRA
具体来说,由于文本提示同时包含 [identifier](如“小鹏汽车P7”) 和 [class noun](“汽车”),当扩散模型在进行微调时,我们观察到它会慢慢忘记如何生成同一类的主题并逐渐忘记特定于class的先验知识,并且不能生成相关类的不同实例(即 所有的“汽车” 可能都变成了 “小鹏汽车P7”)。Textual Inversion算法的核心思想是,为了表示定制化的内容,我们要学习一个全新的词嵌入向量,并给它一个特殊的符号,比如S*,然后为这个新符号分配一个新的标识号(token_id)。原创 2024-07-31 16:45:36 · 533 阅读 · 0 评论 -
AI绘画模型之:VAE、SD 与 SD-XL
研究人员使用COCO2017数据集的验证集对改进的自编码器进行了评估,并使用了多个重建指标进行评估,包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、结构相似性指数(Structural Similarity Index,SSIM)、感知距离指标(Learned Perceptual Image Patch Similarity,LPIPS)和重建FID(reconstruction FID)。例如,如果原始图像的分辨率是512x512,那么潜在空间的大小可以是64x64。原创 2024-07-31 16:38:08 · 364 阅读 · 0 评论 -
AI绘画模型之:UNet、Imagen 与 DeepFloyd IF
首先,我们要了解一下 Imagen 模型,它是一种人工智能模型,专门用于绘画任务。让我们先看看 Imagen 模型在人工智能绘画方面的表现,以便我们能够更直观地理解它的能力。Imagen 模型有一个很酷的功能,它可以根据指定的文字生成图像,我们可以简称这个功能为“Text-in-Image”(文字嵌入图像)。下面的图片展示了 DALL-E 2 和 Imagen 在这个功能上的对比效果。第一个优势是生成的图像看起来非常逼真,就像真实的照片一样,这个特性叫做“图像真实感”。原创 2024-07-30 14:12:35 · 141 阅读 · 0 评论 -
AI绘画模型之:CLIP 与 DALL-E 2
当我们了解了整个技术方案,可能会有这样的疑惑——因为CLIP的图像和文本表征是通过大量图像和文字的训练得到的,而训练的目标是使匹配的图像和文本表征尽可能接近,那么为什么还需要使用扩散先验模块呢?通过对比图表,你可以看到,用户输入一张图像,使用CLIP的图像编码器提取图像表示作为图像解码器的输入,从而实现了生成图像变体的能力。之前我们提到,扩散先验模型的作用是获得与CLIP图像编码器提取的图像表示类似的表示,而图像变体功能使用CLIP图像编码器提取图像表示,这两者是相似的。原创 2024-07-30 14:03:58 · 257 阅读 · 0 评论 -
视觉-语言大模型应用
可以发现 Qwen-VL-Chat 对图片整体理解还是不错的,但对左侧的方框中的内容是理解有一定出入了。很不幸,VisualGLM 回答出错了,图中的应该是"姆巴佩",而不是"内马尔"。Qwen-VL-Chat 正确的回答了,图中的人物是“梅西和姆巴佩”。我们再来试一下其他的图片。原创 2024-07-29 13:48:59 · 205 阅读 · 0 评论 -
基于ChatGPT的“看图说话”
当你使用 “llama_index” 这个工具来索引文本时,它不仅可以处理纯文字的内容,还可以处理书本等资料中的图片和插画等图像信息。就像你可以通过索引来查找文字信息一样,你也可以用 “llama_index” 来索引这些图片和插画,以便在需要的时候查询。然后你可以使用 “llama_index” 来索引这些小票的信息。参考《动手自己实现ChatPDF》部分代码:https://huggingface.co/spaces/souljoy/ChatPDF/blob/main/app.py。原创 2024-07-29 11:38:13 · 154 阅读 · 0 评论 -
视觉-语言大模型原理
在预训练阶段,Qwen-VL使用了一个大型的语言模型(LLM)作为基础组件,该模型的权重是从Qwen-7B模型中初始化的。此外,基于预训练的Qwen-7B,发布了Qwen-7B-Chat,这是一个基于大型模型的人工智能助手,通过对齐技术进行了训练。通过将Q-Former的输出连接到冻结的语言模型,并训练Q-Former使其输出的视觉表示可以被语言模型解释,从而实现视觉到语言的生成学习。在这个阶段,Qwen-VL的目标是通过最小化多个任务的损失函数来训练模型,以提高模型在各个任务上的性能。原创 2024-07-28 12:17:32 · 126 阅读 · 0 评论 -
视觉编解码模型原理
Vision Encoder Decoder Models 是一种用于将图像转换为文本的模型架构。该架构的核心思想是将预训练的基于 Transformer 架构的视觉模型用作编码器(如 ViT、BEiT、DeiT、Swin),将预训练的基于语言模型的文本生成模型用作解码器(如 RoBERTa、GPT-2、BERT、DistilBERT),从而实现图像到文本的转换。原创 2024-07-25 11:34:42 · 162 阅读 · 0 评论 -
视觉-语言大模型原理
在预训练阶段,Qwen-VL使用了一个大型的语言模型(LLM)作为基础组件,该模型的权重是从Qwen-7B模型中初始化的。此外,基于预训练的Qwen-7B,发布了Qwen-7B-Chat,这是一个基于大型模型的人工智能助手,通过对齐技术进行了训练。通过将Q-Former的输出连接到冻结的语言模型,并训练Q-Former使其输出的视觉表示可以被语言模型解释,从而实现视觉到语言的生成学习。总之,Qwen-VL是一种大规模视觉-语言模型,具备强大的视觉理解能力和灵活的交互能力,可应用于多种实际问题的解决。原创 2023-12-18 17:09:19 · 301 阅读 · 0 评论 -
视觉编解码模型原理
Vision Encoder Decoder Models 是一种用于将图像转换为文本的模型架构。该架构的核心思想是将预训练的基于 Transformer 架构的视觉模型用作编码器(如 ViT、BEiT、DeiT、Swin),将预训练的基于语言模型的文本生成模型用作解码器(如 RoBERTa、GPT-2、BERT、DistilBERT),从而实现图像到文本的转换。原创 2023-11-14 13:55:49 · 426 阅读 · 0 评论 -
AI代理行业案例:“一键成片”虚拟数字人
这一部分为用户提供了工具自定义的功能,使其能够轻松新增自定义工具,进行工具的描述、配置更新和维护。自定义的工具将被添加到工具库中,以备后续使用。这种灵活性和可定制性,使用户能够根据具体需求创建适合其任务的工具,确保了系统的适应性和多功能性。原创 2023-10-29 13:27:13 · 1119 阅读 · 0 评论 -
【stability.ai】SDXL:改进高分辨率图像合成的潜在扩散模型
近年来,深度生成建模在自然语言、音频和视觉媒体等各个数据领域取得了巨大的突破。本文将重点关注视觉媒体领域,并揭示了SDXL(Stable Diffusion的极大改进版本)的出现。Stable Diffusion是一种潜在的文本到图像扩散模型(DM),为3D分类、可控图像编辑、图像个性化、合成数据增强、图形用户界面原型设计等一系列最新进展提供了基础。令人惊讶的是,这些应用的范围非常广泛,涵盖了音乐生成和从fMRI脑部扫描中重建图像等领域。原创 2023-07-08 13:27:30 · 781 阅读 · 0 评论 -
AI绘画模型之:扩散模型原理
扩散模型的灵感来自热力学,用通俗的话来解释就是,想象一下你在一杯清水中滴入一滴有色的碘伏,然后观察这杯水发生的情况。你会发现,碘伏开始逐渐在水中扩散开来,最终整杯水都会变成有色。这就是扩散,它代表了从有序到混乱的过程。就像你滴入红色液体到清水中,颜色会逐渐扩散开,最终整杯水都变成红色一样。这个过程可以用来描述很多现象,如颜色、热量或分子的传播,都会经历扩散过程,从有序到混合的状态。AI绘画中的扩散模型类似于下面的例子:想象一张图片,开始时它很清晰,然后逐渐添加一些随机噪声,使得图像变得模糊和混乱。原创 2023-04-20 16:00:10 · 1538 阅读 · 1 评论 -
【NeurIPS 2019】ViLBERT
本文提出的ViLBERT是一个能够从视觉-语言数据集中学习到任务无关的视觉基础知识的联合模型。ViLBERT扩展了BERT模型以共同推理文本和图像。本文的关键创新点在于提出一种双流机制,即分别面向视觉和语言的流。该双流能够在共注意力transformer层进行交互:可以看到上图,绿色是图像模态,紫色是文本模态。TRM,即 transformerblock;Co-TRM 即 co-attentional transformer layer。原创 2021-04-04 10:51:55 · 807 阅读 · 0 评论 -
TensorFlow实战——CNN
全连接神经网络存在以下三个问题: 1. 参数太多(每个节点都要和下一层的所有节点连接) 2. 容易过拟合 3. 不能很好的抽取局部的特征(如一张有两只猫的图片,它偏向于抽取整张图的特征,而不是图中部分区域的特征)鉴于以上的问题,我们介绍卷积神经网络(CNN)。先介绍CNN中的池化层和卷积层。我们根据下图来讲解:过滤器池化层和卷积层都会有过滤器,过滤器会有个窗口(如上图中,黄色的框框),它会把上原创 2017-06-03 22:59:10 · 1242 阅读 · 0 评论 -
TensorFlow实战——CNN(LeNet5)——MNIST数字识别
本文地址: http://blog.youkuaiyun.com/u011239443/article/details/72861591我们来实现下不标准的LeNet模型: train:https://github.com/xiaoyesoso/TensorFlowinAction/blob/master/InActionB1/chapter6/mnist_train_6_4_1.py inference原创 2017-06-04 21:20:21 · 6477 阅读 · 1 评论 -
TensorFlow实战——CNN(VGGNet19)——图像风格转化
这次我们要做一件比较有趣的事——讲图像风格转化。如何将一张杭州西湖图片:将其风格转化为和梵高的《星夜》一样具有鲜明艺术的风格呢?先给出完整的代码:https://github.com/xiaoyesoso/TensorFlowinAction/blob/master/InActionB2/chapter4/tranImage.py接下来我们来讲解它。原创 2017-06-25 20:27:15 · 27996 阅读 · 12 评论 -
《neural network and deep learning》题解——ch03 再看手写识别问题题解与源码分析
http://blog.youkuaiyun.com/u011239443/article/details/77649026完整代码:https://github.com/xiaoyesoso/neural-networks-and-deep-learning/blob/master/src/network2.py我们之前根据《neural network and deep learning》题解——ch02原创 2017-08-28 15:12:07 · 2933 阅读 · 2 评论 -
TensorFlow实战——CNN(Inception-v3)
本文:http://blog.youkuaiyun.com/u011239443/article/details/73008131 我们之前介绍的神经网络层与层之间都是一对一的,而Inception-v3模型存在一对多和多对一。一对多:用不同或者相同的过滤器过滤出多个层多对一:将多层合并,即深度会相加。tensorflow github 中有Inception-v3模型的实现:https://githu原创 2017-06-10 21:05:31 · 6820 阅读 · 0 评论 -
论文阅读:《Visual Dialog》
论文:https://arxiv.org/pdf/1611.08669.pdf原文:http://www.hankcs.com/nlp/cs224n-visual-dialog.html术语Visual Dialog,大致这么翻译(通俗理解为斗图)。你可以给聊天机器人发送图片,它能理解图片的意思,你们可以就图片内容展开对话;除了文本之外,让图片也成为交流的一部分;这可以帮助盲人理解周围或社交媒...转载 2018-10-24 22:34:10 · 1667 阅读 · 0 评论 -
《深度学习Ng》课程学习笔记04week1——卷积神经网络
http://blog.youkuaiyun.com/u011239443/article/details/790570161.1 计算机视觉计算机视觉领域的问题图片分类目标检测图片风格转化深度学习在图像中的应用 过多的权重参数矩阵让计算、内存消耗使得传统神经网络不能接受。1.2 边缘检测示例过滤器示例 该过滤器为竖直边缘过滤器。为什么叫原创 2018-01-14 15:48:55 · 652 阅读 · 0 评论 -
对抗机器学习模型
之前讲的都是白盒攻击,即模型的网络结构我们都是知道的。很神奇的是,我们只要用相同的数据训练某个自定义结构的Proxy模型,在该Proxy模型上做attack,Black模型也能被很好的attack了。机器学习模型很可以会遭到恶意攻击,比较直接就能想到的如:人脸识别模型的攻击。训练出具有对抗性的机器学习模型,在业务系统存在着越来越重要的实际意义。FGSM(fast gradient sign method) 是一种非常快捷的attack方法:只进行一次求梯度,并取其各个位上的符号作为结果。原创 2019-05-04 14:28:50 · 5883 阅读 · 1 评论 -
论文阅读:《 Lip Reading Sentences in the Wild》
论文:https://arxiv.org/abs/1611.05358原文:http://www.hankcs.com/nlp/cs224n-lip-reading.html唇语翻译将视频处理为以嘴唇为中心的图片序列,给或不给语音,预测正在讲的话。这些数据可能来自新闻直播:动画演示:这里唇语和语音的识别、卡拉OK效果式的对齐,都是模型自动完成的。架构视觉和听觉两个模块或者...转载 2018-10-26 17:02:57 · 3376 阅读 · 2 评论