- 博客(16)
- 收藏
- 关注
原创 soro技术报告阅读A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
DiT采用的autoencoder是SD所使用的KL-f8,对于256x256x3的图像,其压缩得到的latent大小为32x32x4,这就降低了扩散模型的计算量(后面我们会看到这将减少transformer的token数量)。另外,这里扩散过程的nosie scheduler采用简单的linear scheduler(timesteps=1000,beta_start=0.0001,beta_end=0.02),这个和SD是不同的。,相比原始DDPM一个重要的变化是不再采用固定的方差,而是。
2024-03-04 15:25:41
1324
原创 DeepSpeed库用于训练一个transform模型
步骤 2: 定义 Transformer 模型步骤 3: 准备数据步骤 4: 使用 DeepSpeed 进行训练首先,创建一个 DeepSpeed 配置文件(例如 ):然后,编写 DeepSpeed 训练脚本:
2023-12-07 10:45:41
756
原创 多模态大语言模型中的基础学习记录
生成的Token序列通过一个输出层,通常是线性变换加上Softmax函数,将每个位置的概率分布转换为对应Token的概率。:对于Token序列中的每个位置,添加位置编码(Positional Encoding)向量,以提供关于Token在序列中位置的信息。在解码过程中,每次生成一个Token时,使用前面已生成的内容作为上下文,来帮助预测下一个Token。还提供了一些其他的工具函数,如dropout、batch normalization等,以及一些辅助函数,如计算参数数量、移动模型到GPU等。
2023-11-06 15:20:03
242
原创 NExT-GPT: Any-to-Any Multimodal LLM 阅读学习
虽然多模态大语言模型(MM-LLMs)最近取得了令人振奋的进展,但它们大多受限于只能理解输入端的多模态,而无法生成多种模态的内容。由于人类总是通过各种模式感知世界并与人交流,因此开发能够接受和提供任何模式内容的 "任意对任意 "MM-LLM 对人类级人工智能至关重要。为了填补这一空白,我们提出了一种端到端的通用任意 MM-LLM 系统 NExT-GPT。我们将 LLM 与多模态适配器和不同的扩散解码器连接起来,使 NExT-GPT 能够感知输入,并以文本、图像、视频和音频的任意组合生成输出。
2023-09-17 14:39:02
928
2
原创 音乐生成综述 Sparks of Large Audio Models: A Survey and Outlook阅读
本综述报告全面概述了将大型语言模型应用于音频信号处理领域的最新进展和挑战。音频处理具有多种信号表示形式和广泛的信号源(从人声到乐器和环境声音),因此面临着与传统自然语言处理不同的挑战。然而,以基于transformer的架构为代表的大型音频模型已在这一领域显示出显著的功效。通过利用海量数据,这些模型已在从自动语音识别和文本到语音到音乐生成等各种音频任务中展现出了卓越的性能。
2023-09-17 12:07:21
814
1
原创 SDXL服务器部署训练相关问题记录
webui-user.sh中修改(使用A100显卡所以使用全精度)--share可生成一个公网链接。该链接为临时链接,有效期三天。服务器和mac系统执行的是./webui.sh,而Windows执行的是webui.bat。要在windows本地使用要配置ssh隧道。以下记录一些Linux命名。
2023-09-15 16:31:14
522
原创 实现简单的神经网络训练代码(包含生成训练集,定义模型、训练模型)详细注释
损失函数e最小即为要求的的随机梯度下降在假设只有一个参数时,可以理解为一个二次函数一条开口向上的曲线,最低点为(斜率最低处)为损失最低处,此时的w为训练出最准确的函数。那么如何寻找最低点,就用一种梯度下降方法,不断的通过某种下降方法求w。
2023-09-09 20:05:19
421
1
原创 Stable Diffusion:High-Resolution Image Synthesis with Latent Diffusion Models论文学习
前一篇Diffusion算法明显的缺点是耗费大量的时间、计算资源,为此,论文将其应用于强大的预训练自编码器的潜在空间 ,这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,将扩散模型转化为强大而灵活的生成器,用于一般条件输入,如文本或包围框,并以卷积方式实现高分辨率合成。
2023-09-09 10:42:35
201
1
原创 python数据容器常见方法速查 深度学习包(PyTorch/TensorFlow/ Diffusers等)速查
diffusers是Hugging Face推出的一个diffusion库,它提供了简单方便的diffusion推理训练pipe,同时拥有一个模型和数据社区,代码可以像torchhub一样直接从指定的仓库去调用别人上传的数据集和pretrain checkpoint。Scikit-learn:一个用于数据挖掘和数据分析的Python库,提供了许多用于机器学习和深度学习的工具和算法。Chainer:一个直观且灵活的深度学习框架,支持动态计算图,并提供快速原型开发和实验的能力。
2023-09-08 10:03:58
184
1
原创 U-Net模型基础笔记
常见的上采样方法包括反卷积(Deconvolution)和转置卷积(Transpose Convolution),它们都可以增加特征图的空间尺寸。在U-Net的解码器阶段,常用的上采样方法包括转置卷积、双线性插值等,它们能够增加特征图的空间尺寸,并在后续的跳跃连接中提供更准确的分割结果。这些区域的信息会在后续的跳跃连接操作中与编码器阶段的特征图进行融合,从而提供更准确的分割结果。通过反向传播算法,使用适当的损失函数(如交叉熵损失函数),可以对U-Net进行训练,并得到良好的分割效果。
2023-09-06 21:02:03
778
1
原创 Diffusion Models论文公式推导:Denoising Diffusion Probabilistic Models阅读学习
我们提出了高质量的图像合成结果使用扩散概率模型,一类潜在变量模型的灵感来自非平衡热力学的考虑。我们的最佳结果是通过训练加权变分界获得的,根据扩散概率模型和去噪分数匹配与朗之万动力学之间的新连接设计,我们的模型自然地承认一个渐进的有损耗解压缩方案,可以解释为自回归解码的一般化。
2023-09-06 19:58:52
248
2
原创 AUDIOLDM 2: LEARNING HOLISTIC AUDIO GENERATION WITH SELF-SUPERVISED PRETRAINING阅读学习
本文提出了一个框架,利用相同的学习方法生成语音、音乐和音效。我们的框架引入了一种通用的音频表示法,称为 "音频语言"(LOA)。任何音频都可以根据 AudioMAE(一种自我监督的预训练表示学习模型)翻译成 LOA。在生成过程中,我们使用 GPT-2 模型将任何模态转化为 LOA,并使用以 LOA 为条件的潜在扩散模型进行自监督音频生成学习。
2023-09-04 20:14:40
749
1
原创 社区团购小程序开发安装教程(基于yii框架+PHP)
环境要求 目前对Linux支持比较好,(windows系统需要自行处理环境问题) 推荐:CentOS 7 以上 环境要求php 7.2,Nginx 1.14以上,MySQL 5.6,开通redis(php扩展) 安装时系统会自动检测环境 使用分享海报,必须安装:imagemagick(php扩展) 强烈建议使用宝塔面板一键快速搭建环境 宝塔面板链接:https://www.bt.cn
2022-03-27 14:55:10
6683
原创 YII框架(数据库)
使用数据库本章节将介绍如何创建一个从数据表country中读取国家数据并显示出来的页面。 为了实现这个目标,你将会配置一个数据库连接, 创建一个活动记录类, 并且创建一个操作及一个视图。贯穿整个章节,你将会学到:配置一个数据库连接 定义一个活动记录类 使用活动记录从数据库中查询数据 以分页方式在视图中显示数据请注意,为了掌握本章你应该具备最基本的数据库知识和使用经验。 尤其是应该知道如何创建数据库,如何通过数据库终端执行 SQL 语句。准备数据库首先创建一个名为yii2...
2022-03-27 14:45:32
518
原创 如何安装YII2框架
安装 Yii你可以通过两种方式安装 Yii:使用Composer或下载一个归档文件。 推荐使用前者,这样只需执行一条简单的命令就可以安装新的扩展或更新 Yii 了。标准安装完Yii之后,框架和一个项目模板两者都下载并安装好了。 一个项目模板是实现了一些基本特性的一个 可行的Yii项目,比如登录,联系表单,等等。 它的代码是以推荐的方式组织的。因此,它能够适合作为你项目的一个好的起点。在本章节和以后的章节,我们将会介绍如何去安装Yii和所谓的基本的应用程序模板和如何去实现这个模板上的新特性。...
2022-03-27 14:41:59
743
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人