- 博客(11)
- 收藏
- 关注
原创 扩散模型数学基础
一. 基础知识1. 马尔可夫假设马尔可夫过程(Markov Process)是一种随机过程,其中系统的未来状态只依赖于当前状态,而与过去的状态无关2. 高斯分布的KL散度KL散度(Kullback-Leibler Divergence)是一种衡量两个概率分布之间差异的指标, 取值范围是[0,+∞][0, +\infty][0,+∞], 越小说明两个概率分布越相似KL散度的定义KL散度的定义为两个概率分布 ( P ) 和 ( Q ) 之间的差异度量,定义如下:DKL(P∥Q)=∫−∞∞p
2025-01-12 20:15:51
801
原创 Denoising Diffusion Probabilistic Models -- 概率扩散模型 数学推导(2)
三.学习目标现在回顾前面扩散过程和生成过程的公式扩散过程q(xt∣x0)∼N(αtˉx0,1−αtˉI)q(x_t|x_0)\sim\mathcal{N}(\sqrt{\bar{\alpha_t}}x_0,\sqrt{1-\bar{\alpha_t}}I)q(xt∣x0)∼N(αtˉx0,1−αtˉI)生成过程:q(Xt−1∣Xt,X0)∼N(Xt−1;1αt(Xt−1−αt1−α‾tϵt),1−α‾t−11−α‾t(1−αt)I)q\left(X_{t-1}|X_t,
2025-01-12 20:15:11
408
原创 Denoising Diffusion Probabilistic Models -- 概率扩散模型 数学推导(1)
扩散模型由和X0→XT从原始数据(X0)开始,通过逐步添加高斯噪声,将复杂的真实数据分布逐渐转化为标准正态分布(XT∼N0I这一过程将数据映射到一个易处理的、简单的分布,为生成过程的学习和生成提供了一个可控的起点。XT→X0从标准正态分布(XT)开始,利用神经网络参数化的去噪模型,逐步还原数据分布,最终生成逼真的样本(X0神经网络通过学习反向扩散过程,掌握从噪声中还原原始数据的能力,从而实现数据生成。
2025-01-12 20:15:03
381
原创 transformer-注意力机制
注意力机制的核心思想是模仿人类视觉的注意力行为:人类观察复杂场景时,会有选择性地关注其中的关键部分,而忽略其他不重要的区域。同样地,在深度学习中,注意力机制能够让模型根据输入数据动态地分配不同的注意力权重,从而更有效地捕捉关键特征。
2025-01-02 21:40:29
960
原创 transformer-位置编码: Position Embedding
(位置嵌入)用于在神经网络中为输入序列中的每个位置编码位置信息,以便模型能够识别输入元素的顺序,从而帮助模型更好地理解数据结构。例如,在模型中,输入数据通常是一个无序的序列。即使一个句子被分割成一系列单词或词向量后,模型无法直接感知这些词的顺序关系。而序列中的位置顺序可能对任务(如翻译、文本生成或分类)至关重要。因此,需要通过将位置信息显式地融入模型的输入中。位置编码能够提供一种的通用机制,使模型不仅能够理解绝对位置信息,还能捕获序列中元素的相对关系,从而提高序列处理能力。
2024-12-24 11:56:55
1608
原创 C++: Namespace 命名空间
默认全局命名空间(Default Global Namespace)是一个特殊的命名空间,用于存放没有明确指定命名空间的标识符。任何在源文件中定义的函数、变量、类或其他标识符,如果没有被封装在某个命名空间内,都会自动放置在这个全局命名空间中。不推荐在头文件中使用, 当其他文件引入该头文件后也会将 std 命名空间中的所有名称引入到当前的作用域, 可能导致名称冲突。在派生类中,可以使用 using 声明来引入基类的成员,特别是在基类中存在重载的情况下。的作用是告诉编译器使用 std 命名空间中的所有名称。
2024-09-28 22:40:05
424
1
原创 leetcode: 70.爬楼梯
在所有方法中,爬上第n级台阶最后一步只有两种情况:爬1级或2 级台阶。特别的, f(0)=1, f(1)=1。设爬上n级台阶有f(n)种方法。
2024-07-31 17:03:43
468
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人