按照迁移学习的数据域与任务的分类,有4种分类方式。
给定源域和目标域 Ds 和 Dt,其中,D={X,P(X)},并且给定源任务和目标任务 Ts 和 Tt,其中 T={Y,P(Y|X)}。源和目标的情况可以以四种方式变化。
(1)XS≠XT。源域和目标域的特征空间不同,例如,文档是用两种不同的语言写的。在自然语言处理的背景下,这通常被称为跨语言适应(cross-lingual adaptation)。
(2)P(Xs)≠P(Xt)。源域和目标域的边缘概率分布不同,例如,两个文档有着不同的主题。这个情景通常被称为域适应(domain adaptation)。
(3)YS≠YT。两个任务的标签空间不同,例如,在目标任务中,文档需要被分配不同的标签。实际上,这种场景通常发生在场景4中,因为不同的任务拥有不同的标签空间,但是拥有相同的条件概率分布,这种情况非常少见。
(4)P(Ys|Xs)≠P(Yt|Xt)。源任务和目标任务的条件概率分布不同,例如,源和目标文档在类别上是不均衡的。这种场景在实际中是比较常见的,诸如过采样、欠采等情况。