20240610日志:LLM Compression: SVD-LLM

Location:Beijing

1. 数学基础:SVD分解与Cholesky分解

1.1 SVD分解

正奇异值分解1,设 A = A m × n A=A_{m\times n} A=Am×n,其中 r = r a n k ( A ) > 0 r=rank(A)>0 r=rank(A)>0,正奇值为 λ 1 , λ 2 , ⋯   , λ r \sqrt{\lambda_1},\sqrt{\lambda_2},\cdots,\sqrt{\lambda_r} λ1 ,λ2 ,,λr ,则有分解
A = P ( λ 1 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ λ r ) Q H (1) A=P\begin{pmatrix}\sqrt{\lambda_1}&\cdots&0\\\vdots&\ddots&\vdots\\0&\cdots&\sqrt{\lambda_r}\end{pmatrix}Q^H\tag{1} A=P λ1 00λr QH(1)
式中, P = P m , r P=P_{m,r} P=Pm,r Q = Q n , r Q=Q_{n,r} Q=Qn,r 为半优阵: P H P = I r = Q H Q P^{H}P=I_{r} = Q^{H}Q PHP=Ir=QHQ(U阵指的是列向量相互正交,且每个列向量长度为1,U阵为方阵,半U阵列满秩)
依次把 P,Q 扩大为 U 阵: W = P = ( P , P 2 ) W=P=(P, P2) W=P=(P,P2); V = Q = ( Q , Q 2 ) V=Q=(Q, Q2) V=Q=(Q,Q2)
可得:
A m × n = W m × m D V n × n H = W ( Δ 0 0 0 ) V H = P Δ Q H (2) A_{m×n}=W_{m×m}\mathrm{D}V^H_{n×n}=W{\begin{pmatrix}\Delta&0\\0&0\end{pmatrix}}V^H=P\Delta Q^H\tag{2} Am×n=Wm×mDVn×nH

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值