diffusion transformer从数学到实践 (1)

如何建模

深度学习、transformer为什么能够学会东西呢。为什么通过对一个维度的信息压缩、解压缩后就能够让模型学习到东西。把流行分布定则框架引入数据科学,流行分布定则为数据科学的可行性给出了较严格的数学依据。
深度学习的主要目的和功能之一就是从数据中学习隐藏的流形结构和流形上的概率分布。
关于聚类分布定律,目前有相对完善的理论基础-最优传输理论,和较为实用的算法,例如基于凸几何的蒙日-安培方程解法,这些方法可以测量概率分布之间的距离,实现概率分布之间的变换。关于流形分布定律,目前理论发展不太完备,很多时候学习效果严重依赖于调参。但是很多实际应用问题,都可以用流形的框架来建模,从而用几何的语言来描述、梳理,用几何理论工具来加以解决,进而有望从含混模糊的经验性试错,进化到思路清晰的定量研究。
流形学习是一类借鉴了拓扑流形概念的降维方法。“流形”是指的是连在一起的区域,数学上,它指的是一组点,且每个点都有其邻域。给定任意一个点,其流形局部看起来像是欧几里得空间。换言之,它在局部空间有欧式空间的性质,能用欧式空间来进行距离计算。因此,很容易地在局部建立降维映射关系,然后再设法将局部关系推广到全局,进而进行可视化展示。
image.png
在数据流形 Σ ⊂ R d \Sigma \subset \mathbb{R}^d ΣRd上稠密采样 { x 1 , x 2 , . . . , x k } \{x_1, x_2, ..., x_k\} { x1,x2,...,xk},我们优化以下损失函数:
min ⁡ θ , ξ L ( θ , ξ ) = min ⁡ θ , ξ ∑ i = 1 k ∥ x i − ψ ξ ∘ ϕ θ ( x i ) ∥ 2 \min_{\theta, \xi} L(\theta, \xi) = \min_{\theta, \xi} \sum_{i=1}^{k} \|x_i - \psi_{\xi} \circ \phi_{\theta}(x_i)\|^2 minθ,ξL(θ,ξ)=minθ,ξi=1kxiψξϕθ(xi)2
如果损失接近 0,那么 ψ ξ ∘ ϕ θ \psi_{\xi} \circ \phi_{\theta} ψξϕθ限制在 Σ \Sigma Σ上为恒同映射,即对于 Σ \Sigma Σ上的任意点x,有 ψ ξ ∘ ϕ θ ( x ) = x \psi_{\xi} \circ \phi_{\theta}(x) = x ψξϕθ(x)=x。这表示 ϕ θ \phi_{\theta} ϕθ ψ ξ \psi_{\xi} ψ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值