深度学习中的张量方法:从架构到鲁棒子网络
1. 张量压缩与卷积
在深度学习中,为了在不损失性能的前提下进一步压缩模型,可采用多状态压缩方法。与先压缩再微调不同,该方法采用迭代方式,交替进行低秩分解、秩选择和微调。
对于通用N维可分离卷积,假设存在一个(N + 1)阶输入激活张量$X \in R^{C×D_1×···×D_N}$,对应N个维度和C个通道。高阶可分离卷积由核$W \in R^{T ×C×K_1×···×K_N}$定义,将其表示为Kruskal形式$W = 〈\lambda; U^{(T)},U^{(C)},U^{(K_1)},··· ,U^{(K_N)}〉$,可得:
[
\circledast(X) {t,i_1,···,i_N} = \sum {r = 1}^{R} \sum_{s = 1}^{C} \sum_{i_1 = 1}^{K_1} \cdots \sum_{i_N = 1}^{K_N} \lambda_r \left( U^{(T)} {t,r} U^{(C)} {s,r} U^{(K_1)} {i_1,r} \cdots U^{(K_N)} {i_N,r} X_{s,i_1,···,i_N} \right)
]
可分离高阶卷积可通过重新排序得到:
[
F = \left[ \rho \left( X \times_1 U^{(T)} \right) \right] \times_1 \left[ \text{diag}(\lambda)U^{(C)} \right]
]
其中,$\rho$应用一维空间卷积:
[
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



