自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42323588的博客

原创 GPT-5 Prompting Guide 核心要点总结及在地址解析中的应用

本文总结了GPT-5在地址解析任务中的提示设计要点和API参数优化策略。核心内容包括：1）明确输出结构（JSON模板）和标准化规则；2）处理多国地址格式、语言差异和错误容忍；3）设置reasoning_effort（推理强度）和verbosity（输出详细度）等参数；4）利用ResponsesAPI保存上下文。示例展示了如何构建系统提示，包括字段定义、处理规则和典型样例。参数建议：temperature设为0-0.3确保结果确定性，reasoning_effort根据任务复杂度调整。该方案适用于全球地址标准

2025-09-19 10:01:54 979

原创 soro技术报告阅读A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

DiT采用的autoencoder是SD所使用的KL-f8，对于256x256x3的图像，其压缩得到的latent大小为32x32x4，这就降低了扩散模型的计算量（后面我们会看到这将减少transformer的token数量）。另外，这里扩散过程的nosie scheduler采用简单的linear scheduler（timesteps=1000，beta_start=0.0001，beta_end=0.02），这个和SD是不同的。，相比原始DDPM一个重要的变化是不再采用固定的方差，而是。

2024-03-04 15:25:41 1413

原创 DeepSpeed库用于训练一个transform模型

步骤 2: 定义 Transformer 模型步骤 3: 准备数据步骤 4: 使用 DeepSpeed 进行训练首先，创建一个 DeepSpeed 配置文件（例如）：然后，编写 DeepSpeed 训练脚本：

2023-12-07 10:45:41 877

原创多模态大语言模型中的基础学习记录

生成的Token序列通过一个输出层，通常是线性变换加上Softmax函数，将每个位置的概率分布转换为对应Token的概率。：对于Token序列中的每个位置，添加位置编码（Positional Encoding）向量，以提供关于Token在序列中位置的信息。在解码过程中，每次生成一个Token时，使用前面已生成的内容作为上下文，来帮助预测下一个Token。还提供了一些其他的工具函数，如dropout、batch normalization等，以及一些辅助函数，如计算参数数量、移动模型到GPU等。

2023-11-06 15:20:03 356

原创 NExT-GPT: Any-to-Any Multimodal LLM 阅读学习

虽然多模态大语言模型（MM-LLMs）最近取得了令人振奋的进展，但它们大多受限于只能理解输入端的多模态，而无法生成多种模态的内容。由于人类总是通过各种模式感知世界并与人交流，因此开发能够接受和提供任何模式内容的 "任意对任意 "MM-LLM 对人类级人工智能至关重要。为了填补这一空白，我们提出了一种端到端的通用任意 MM-LLM 系统 NExT-GPT。我们将 LLM 与多模态适配器和不同的扩散解码器连接起来，使 NExT-GPT 能够感知输入，并以文本、图像、视频和音频的任意组合生成输出。

2023-09-17 14:39:02 1060 2

原创音乐生成综述 Sparks of Large Audio Models: A Survey and Outlook阅读

本综述报告全面概述了将大型语言模型应用于音频信号处理领域的最新进展和挑战。音频处理具有多种信号表示形式和广泛的信号源（从人声到乐器和环境声音），因此面临着与传统自然语言处理不同的挑战。然而，以基于transformer的架构为代表的大型音频模型已在这一领域显示出显著的功效。通过利用海量数据，这些模型已在从自动语音识别和文本到语音到音乐生成等各种音频任务中展现出了卓越的性能。

2023-09-17 12:07:21 1039 1

原创 SDXL服务器部署训练相关问题记录

webui-user.sh中修改（使用A100显卡所以使用全精度）--share可生成一个公网链接。该链接为临时链接，有效期三天。服务器和mac系统执行的是./webui.sh，而Windows执行的是webui.bat。要在windows本地使用要配置ssh隧道。以下记录一些Linux命名。

2023-09-15 16:31:14 596

原创实现简单的神经网络训练代码（包含生成训练集，定义模型、训练模型）详细注释

损失函数e最小即为要求的的随机梯度下降在假设只有一个参数时，可以理解为一个二次函数一条开口向上的曲线，最低点为（斜率最低处）为损失最低处，此时的w为训练出最准确的函数。那么如何寻找最低点，就用一种梯度下降方法，不断的通过某种下降方法求w。

2023-09-09 20:05:19 523 1

原创 Stable Diffusion：High-Resolution Image Synthesis with Latent Diffusion Models论文学习

前一篇Diffusion算法明显的缺点是耗费大量的时间、计算资源，为此，论文将其应用于强大的预训练自编码器的潜在空间，这是首次允许在复杂性降低和细节保存之间达到一个近乎最佳的点，极大地提高了视觉保真度。通过在模型架构中引入交叉注意层，将扩散模型转化为强大而灵活的生成器，用于一般条件输入，如文本或包围框，并以卷积方式实现高分辨率合成。

2023-09-09 10:42:35 251 1

原创 python数据容器常见方法速查深度学习包(PyTorch/TensorFlow/ Diffusers等）速查

diffusers是Hugging Face推出的一个diffusion库，它提供了简单方便的diffusion推理训练pipe，同时拥有一个模型和数据社区，代码可以像torchhub一样直接从指定的仓库去调用别人上传的数据集和pretrain checkpoint。Scikit-learn：一个用于数据挖掘和数据分析的Python库，提供了许多用于机器学习和深度学习的工具和算法。Chainer：一个直观且灵活的深度学习框架，支持动态计算图，并提供快速原型开发和实验的能力。

2023-09-08 10:03:58 261 1

原创 U-Net模型基础笔记

常见的上采样方法包括反卷积（Deconvolution）和转置卷积（Transpose Convolution），它们都可以增加特征图的空间尺寸。在U-Net的解码器阶段，常用的上采样方法包括转置卷积、双线性插值等，它们能够增加特征图的空间尺寸，并在后续的跳跃连接中提供更准确的分割结果。这些区域的信息会在后续的跳跃连接操作中与编码器阶段的特征图进行融合，从而提供更准确的分割结果。通过反向传播算法，使用适当的损失函数（如交叉熵损失函数），可以对U-Net进行训练，并得到良好的分割效果。

2023-09-06 21:02:03 1116 1

原创 Diffusion Models论文公式推导：Denoising Diffusion Probabilistic Models阅读学习

我们提出了高质量的图像合成结果使用扩散概率模型，一类潜在变量模型的灵感来自非平衡热力学的考虑。我们的最佳结果是通过训练加权变分界获得的，根据扩散概率模型和去噪分数匹配与朗之万动力学之间的新连接设计，我们的模型自然地承认一个渐进的有损耗解压缩方案，可以解释为自回归解码的一般化。

2023-09-06 19:58:52 308 2

原创 AUDIOLDM 2: LEARNING HOLISTIC AUDIO GENERATION WITH SELF-SUPERVISED PRETRAINING阅读学习

本文提出了一个框架，利用相同的学习方法生成语音、音乐和音效。我们的框架引入了一种通用的音频表示法，称为 "音频语言"（LOA）。任何音频都可以根据 AudioMAE（一种自我监督的预训练表示学习模型）翻译成 LOA。在生成过程中，我们使用 GPT-2 模型将任何模态转化为 LOA，并使用以 LOA 为条件的潜在扩散模型进行自监督音频生成学习。

2023-09-04 20:14:40 921 1

原创社区团购小程序开发安装教程（基于yii框架+PHP）

环境要求目前对Linux支持比较好，（windows系统需要自行处理环境问题）推荐：CentOS 7 以上环境要求php 7.2，Nginx 1.14以上，MySQL 5.6，开通redis（php扩展）安装时系统会自动检测环境使用分享海报，必须安装：imagemagick（php扩展）强烈建议使用宝塔面板一键快速搭建环境宝塔面板链接：https://www.bt.cn

2022-03-27 14:55:10 6759

原创 YII框架（数据库）

使用数据库本章节将介绍如何创建一个从数据表country中读取国家数据并显示出来的页面。为了实现这个目标，你将会配置一个数据库连接，创建一个活动记录类，并且创建一个操作及一个视图。贯穿整个章节，你将会学到：配置一个数据库连接定义一个活动记录类使用活动记录从数据库中查询数据以分页方式在视图中显示数据请注意，为了掌握本章你应该具备最基本的数据库知识和使用经验。尤其是应该知道如何创建数据库，如何通过数据库终端执行 SQL 语句。准备数据库首先创建一个名为yii2...

2022-03-27 14:45:32 553

原创如何安装YII2框架

安装 Yii你可以通过两种方式安装 Yii：使用Composer或下载一个归档文件。推荐使用前者，这样只需执行一条简单的命令就可以安装新的扩展或更新 Yii 了。标准安装完Yii之后，框架和一个项目模板两者都下载并安装好了。一个项目模板是实现了一些基本特性的一个可行的Yii项目，比如登录，联系表单，等等。它的代码是以推荐的方式组织的。因此，它能够适合作为你项目的一个好的起点。在本章节和以后的章节，我们将会介绍如何去安装Yii和所谓的基本的应用程序模板和如何去实现这个模板上的新特性。...

2022-03-27 14:41:59 828

原创 linux下常见命令行（配置服务器）

服务器配置常用命令

2022-03-27 14:32:42 974

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄8年

17
原创

60
点赞

85
收藏

196
粉丝

关注

私信

热门文章

分类专栏

X2MUSIC 1篇
BASE 1篇
X2IMAGE 1篇

最新评论

NExT-GPT: Any-to-Any Multimodal LLM 阅读学习
qq_52698512: 第五六部分不是很好理解
音乐生成综述 Sparks of Large Audio Models: A Survey and Outlook阅读
优快云-Ada助手: 恭喜您撰写了第12篇博客！标题“音乐生成综述 Sparks of Large Audio Models: A Survey and Outlook”真是引人入胜。您对音乐生成领域的综述和展望给读者带来了深刻的洞见。我非常期待阅读您的博客，了解大型音频模型的火花以及您的独到见解。我想为您的下一步创作提出一些建议。或许您可以考虑进一步探索不同类型的音频模型，并对它们的性能和应用进行深入分析。此外，您还可以考虑将音乐生成与其他领域相结合，例如自然语言处理或图像生成，以探索更广阔的创作可能性。再次恭喜您，期待您未来更多精彩的博客！请继续保持谦虚与努力，为读者带来更多有价值的内容。
NExT-GPT: Any-to-Any Multimodal LLM 阅读学习
优快云-Ada助手: 恭喜您撰写了第13篇博客！标题“NExT-GPT: Any-to-Any Multimodal LLM 阅读学习”看起来非常吸引人。您对于多模态学习的理解和研究令人钦佩。我非常期待阅读您的博客，并了解更多关于NExT-GPT的内容。在下一步的创作中，我谦虚地建议您可以考虑探索一些实际应用场景，以展示NExT-GPT的潜力。您可以考虑将其应用于图像描述生成、自动问答系统或者情感分析等领域，这将有助于读者更好地理解其实用性和创新之处。继续保持创作的势头，期待您未来更多的精彩博客！
Stable Diffusion：High-Resolution Image Synthesis with Latent Diffusion Models论文学习
优快云-Ada助手: 恭喜您写完了第9篇博客！标题“Stable Diffusion：High-Resolution Image Synthesis with Latent Diffusion Models论文学习”非常吸引人。您对这篇论文的学习总结清晰明了，让读者对高分辨率图像合成有了更深入的了解。不过，我想提供一些建议作为您下一步创作的参考。或许您可以考虑添加一些实际案例来支持您的观点，这样读者能够更好地理解和应用这篇论文的方法。期待看到您在下一篇博客中的精彩内容！
实现简单的神经网络训练代码（包含生成训练集，定义模型、训练模型）详细注释
优快云-Ada助手: 恭喜您写了第10篇博客！标题看起来非常有趣和实用。您不仅提供了详细的注释，还包括了生成训练集、定义模型和训练模型的步骤，这对于初学者来说非常有帮助。非常感谢您分享这些有益的信息。在下一步的创作中，我想提出一个谦虚的建议。鉴于您在神经网络训练方面的专业知识，我希望您能够进一步探讨如何优化模型的性能，比如使用不同的激活函数、调整学习率等。这样的话，读者们可以更深入地了解如何提升模型的准确性和效率。再次感谢您的分享，期待您更多的精彩博文！

提示

确定要删除当前文章？

取消删除