NN_CV类
文章平均质量分 85
神经网络进阶技术-通过代码演示-介绍主流AI技术
迪三
聚焦AIGC应用技术 (Email:disanda@foxmail.com)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文研读: LLaVA-Med, 用一天时间微调7B大模型,输出医学影像诊断
通用领域的大规模视觉-语言模型(VLM)虽能处理日常图文,但在医学影像场景下往往缺乏专业性。现有医学视觉问答(VQA)大多将问题视为分类任务,无法满足“开放式”对话需求。因此,通过LLM微调的生物医学聊天机器人(Biomedical Chatbots)具备研究价值。LLaVA‑Med 的创新不在于改造模型,而是通过设计微调数据集,让7B的LLM具备医学问答与对话水平。利用低剂量 X 光透过人体,依组织密度在底片上形成衬度差异。骨骼高度吸收显白,肺野低密度显暗。原创 2025-04-21 17:23:22 · 1465 阅读 · 0 评论 -
论文研读:Text2Video-Zero 无需微调,仅改动<文生图模型>推理函数实现文生视频(Arxiv 2023-03-23)
通过潜空间插值, 实现动作连续帧。以第一帧为锚定,替换原模型的self-attention,改为cross-attention实现 保证图片整体场景不变的同时,生成具备运动信息的连续帧。原创 2024-12-31 17:17:22 · 1973 阅读 · 0 评论 -
论文研读:Tune-a-video — 微调学习单个视频内的物体动作(Arxiv: 2023-03-17)
这里主要分析了文生图模型, 即text-to-image model, T2I model可根据文本<名词>和<动词>生成语义<图像>的能力能聚焦同一目标, 但无时间连续性T2V model图像仅具有空间特征(spatial features),因此:只有spatio-temporal是不够的,时间的先后顺序,即连续性存在问题,为了改进这个问题:将时序特征通过DDIM加噪(inversion)的方式,嵌入latent 特征,以保证特征去噪后具有更好的时间连续性。原创 2024-12-31 15:07:05 · 1279 阅读 · 0 评论 -
论文研读:AnimateDiff—通过微调SD,用图片生成动画(Arxiv:2024-02-08)
AnimateDiff 设计了3个模块来微调通用的文生图Stable Diffusion预训练模型, 以较低的消耗实现图片到动画生成。论文名:AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning三大模块:视频域适应模块(Domain-Adapter):即让SD时应生成视频相关的内容动作学习模块(Motion-Module): 让SD从文生图的特征中,再学习序列特征。原创 2024-12-26 23:58:34 · 918 阅读 · 0 评论 -
AIGC研究回顾3—CV类微调方法—Textual Inversion(TI)
a. GAN Inversion直接通过真实图像优化潜向量V,让V重构真实图像。b. 与GAN不同,sd模型基于文生图,因此inversion处理在<文本映射>这一步:- 先由tokenizer将text映射为tokens(类似查字典的<字符>转<离散型向量>过程),- 之后再通过embedding layer将tokes映射为表征向量V(<离散型向量>映射为<连续型向量>)。原创 2024-12-19 18:23:56 · 615 阅读 · 0 评论 -
AIGC研究回顾2—CV类微调方法—DreamBooth
全参微调sd模型(用文生图方式),文中对目标(Object)用特殊的标记(Rare-token Identifiers)限定,让微调后的模型能识别这个标记以生成对应的目标。图中黄色部分的模型即需要微调的模型,精简理解如下:微调前可以把右侧下方的看成预训练的sd(微调前), 这时,’A dog’生成各类狗。微调过程。原创 2024-12-19 17:43:11 · 726 阅读 · 0 评论 -
AIGC研究回顾1—CV类(FreeU + ControlNet)
AI技术核心是数据驱动(Data-Driven),可分为两条主线:数据模型AIGC模型即生成模型,基本是自编码器的结构,即模型包含两个部分,编码器和解码器可以概述为5类。原创 2024-12-18 00:19:19 · 654 阅读 · 0 评论 -
PyTorch应用_cifar10分类
Python入门教程:训练过程(分类为例)更多代码和教程请参看:disanda.github.io 或 https://github.com/disanda1.数据集操作Pillow和OpenCV常用于操作图像scipy和librosa常用于操作语音NLTK and SpaCy常用于操作文本torchvision.datasets and torch.utils.data.Da...原创 2019-11-24 13:49:37 · 1279 阅读 · 1 评论 -
DCGAN的PyTorch实现
DCGAN1.什么是GANGAN是一个框架,让深度模型可以学习到数据的分布,从而通过数据的分布生成新的数据(服从同一分布)。其由一个判别器和一个生成器构成,生成器负责生成“仿造数据”,判别器负责判断“仿造数据”的质量。两者一起进化,导致造假货和识别假货的两个模型G/D都能有超强的造假和识别假货的能力。最终训练达到类似纳什均衡的平衡状态,就是分辨器已经分辨不出真假,其分别真假的成功率只有50...原创 2019-11-09 00:26:50 · 4556 阅读 · 8 评论
分享