Cost-effective training of deep CNNs with active model adaptation

最新推荐文章于 2022-05-23 16:24:21 发布

翻译最新推荐文章于 2022-05-23 16:24:21 发布 · 586 阅读

增量学习同时被 2 个专栏收录

4 篇文章

订阅专栏

主动学习

1 篇文章

订阅专栏

本文介绍了一种名为ADMA的算法流程，该算法用于通过分析不同层级特征来评估未标记数据的独特性和不确定性，进而确定最优的数据标签策略。文章详细解释了如何通过计算不同层间特征变化来衡量数据的独特性，并结合迭代过程中的不确定性来为每个实例评分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

KDD2018，作者：Sheng-Jun Huang, Jia-Wei Zhao, Zhao-Yang Liu
将论文中的主要算法流程翻译过来，方便以后使用
注：这不是标准的算法流程，为了方便，将算法中的公式直接写入到流程中了。
ADMA算法流程：
输入：
$U$ : 实例 $n_u$ 的无标签数据集
$M^0$ ：预训练模型
$A$ ：特征训练的初始化层的层号
$B$ ：特征训练的最终层的层号
$Z$ ：在原任务中用来训练模型 $M^0$ 的数据集
初始化：
找到数据集 $Z$ 中 $k$ 类的每一类的中心 $C={c_1,...,c_k}$ ；
得到 $ckAc^A_k$ 和 $ckBc^B_k$ ：在层 $A$ 和 $B$ 时 $c_k$ 的输出
根据等式计算 $SCAS^A_C$ 和 $SCBS^B_C$ 的值，公式如下：
$SCA=[Sc1ASc2A...SckA]=[∥c1A−c1A∥2∥c2A−c1A∥2...∥cKA−c1A∥2∥c1A−c2A∥2∥c2A−c2A∥2...∥cKA−c2A∥2............∥c1A−cKA∥2∥c2A−cKA∥2...∥cKA−cKA∥2]S^A_C=\begin{bmatrix} S^A_{c_1} & S^A_{c_2} & ... & S^A_{c_k} \end{bmatrix} =\begin{bmatrix} \begin{Vmatrix} c^A_1-c^A_1 \end{Vmatrix}^2 & \begin{Vmatrix} c^A_2-c^A_1 \end{Vmatrix}^2& ... &\begin{Vmatrix} c^A_K-c^A_1 \end{Vmatrix} ^2\\ \begin{Vmatrix} c^A_1-c^A_2 \end{Vmatrix} ^2& \begin{Vmatrix} c^A_2-c^A_2 \end{Vmatrix} ^2& ... & \begin{Vmatrix} c^A_K-c^A_2 \end{Vmatrix} ^2\\ ... &... & ... & ...\\ \begin{Vmatrix} c^A_1-c^A_K \end{Vmatrix} ^2& \begin{Vmatrix} c^A_2-c^A_K \end{Vmatrix}^2 & ... & \begin{Vmatrix} c^A_K-c^A_K \end{Vmatrix}^2 \end{bmatrix}$
计算 $SA→B=SCA−SCBS^{A\rightarrow B}=S^A_C-S^B_C$
重复：
$\quad each \quad instance \quad x \in U$
$\quad$ 得到 $xkAx^A_k$ 和 $xkBx^B_k$ 的值：即 $x$ 在 $A$ 和 $B$ 层的输出
$\quad$ 根据公式计算 $SxAS^A_x$ 和 $SxBS^B_x$ 的值，公式如下：
$sxA=[∥x−c1A∥2∥x−c2A∥2...∥x−cKA∥2]s^A_x=\begin{bmatrix} \begin{Vmatrix} x-c^A_1 \end{Vmatrix} ^2\\ \begin{Vmatrix} x-c^A_2 \end{Vmatrix} ^2 \\ ... \\ \begin{Vmatrix} x-c^A_K \end{Vmatrix} ^2 \end{bmatrix}$
$\quad$ 计算 $SxA→B=SxA−SxBS^{A\rightarrow B}_x=S^A_x-S^B_x$
$\quad$ 根据加权和 $SCA→BS^{A\rightarrow B}_C$ 计算 $S^xA→B\hat{S}^{A\rightarrow B}_x$
$\quad$ 计算样本独特性 $Distinctiveness(x)=1−τ(SxA→B,S^xA→B)2Distinctiveness(x)=\frac{1-\tau \left(S^{A\rightarrow B}_x,\hat{S}^{A\rightarrow B}_x \right)}{2}$
$\quad$ 根据公式计算样本的不确定性，（信息熵）公式如下：
$Uncertainty(x)=−∑K′=1K′p(M(x)=k′)⋅(1−p(M(x)=k′))Uncertainty(x)=-\sum_{K^{'}=1}^{K^{'}}p\left ( M\left ( x \right )=k^{'} \right )\cdot \left ( 1-p\left ( M\left ( x \right )=k^{'} \right ) \right )$
其中， $M$ 是当前的模型， $p(M(x)=k′)p\left ( M\left ( x \right )=k^{'} \right )$ 是 $x$ 基于模型 $M$ 预测的属于类别 $k′k^{'}$ 的可能性
$\quad$ 根据公式计算评判的标准分数，公式如下：
$score(x)=(1−λ⋅t)⋅distinctiveness(x)+λ⋅t⋅uncertainty(x)score(x)=(1-\lambda \cdot t)\cdot distinctiveness(x) +\lambda \cdot t\cdot uncertainty(x)$
其中， $t$ 是迭代次数
$EndforEnd\quad for$
从 $U$ 中选择具有最大分数的一批数据 $Q$
查询 $Q$ 的标签，并且将 $Q$ 从 $U$ 中移除
使用已经查询到标签的数据微调模型 $M^{t-1}$ 得到模型 $M^{t}$
直到达到查询预算（query budget)或者期望效果(expected performance)
注：计算 $S^xA→B\hat{S}^{A\rightarrow B}_x$ 的公式：
$SckA→B=SckA−SckBS^{A\rightarrow B}_{c_k}=S^{A}_{c_k}-S^{ B}_{c_k}$
我们尝试通过x线性特征联合
$S^xA→B=∑k=1Kαk(x)⋅SckA→B\hat{S}^{A\rightarrow B}_x=\sum_{k=1}^{K}\alpha_k(x)\cdot S^{A\rightarrow B}_{c_k}$
$αk(x)\alpha_k(x)$ 是第k个中心的权重，就是在原模型上x属于k类的概率
$αk(x)=p(M0(x)=k)\alpha_k(x)=p(M^0(x)=k)$