目录
前言
- 2018年的NeurIPS。
- 在许多生物和医学环境中,我们通过聚集许多来源来构建一个大的标记语料库,用于目标预测任务。不幸的是,许多源可能与我们的目标任务无关,因此忽略数据集的结构是有害的。
- 所以说不能忽略数据集的结构,而本文提出的多域匹配网络(Multiple Domain Matching Network)则是利用这种结构。它将所有数据映射(embedding)到同一个特征空间,然后看看那些域有较强的统计关系。
- 可见作者是想排除无关数据的干扰。
- 理论分析表明,与现有的多域自适应方法相比,该方法具有更严格的泛化能力。从经验来看,我们表明,所提出的方法处理更多数量的源域(根据经验最多可达21个),并在图像、文本和多通道时间序列分类方面提供最先进的性能,包括评估自闭症谱系障碍新治疗的开放标签试验中的临床结果数据。
Introduction
- 老样子,大量数据有利于深度学习,而在医疗、生物等领域,收集或者标记这些数据是极其昂贵的。
- 作者还提到,很少现有的工作可以模拟不同领域之间的关系,但这个非常重要,不能忽视。原因主要有以下两点:
- 第一,因为即便是不同域的数据拥有同样的标签(当多个域的数据混在一起的时候,它们标签相同的也不见得来自一种分布),但是它们的产生原因是不同的(分布不同,比如SVHN和MNIST混在一起,同样是数字五,分布也不同)。
- 第二,可以在更大的人群中仅使用少量的源来构建训练语料库。例