无监督和有监督的区别_无监督元学习(Unsupervised Meta-Learning)

自从ICML的Model-Agnostic Meta-Learning (MAML)以及NIPS17的Prototypical Networks (ProtoNet)等paper出现之后，一系列meta learning以及few-shot learning的paper如雨后春笋般涌现出来。同时，常用的几个数据集Omniglot、miniImagenet、tieredImagenet的性能也被不断刷新。

结合最近无监督学习的潮流，元学习相关方法和无监督学习的结合，成为了最近一个新的方向。本文主要介绍基于MAML的无监督元学习相关工作。

有监督和无监督元学习的对比，如图1。区别主要在Meta-train阶段，有监督元学习可以利用标签信息进行训练，而无监督元学习只能利用无标注的原始数据。无监督的常见方法，比如self-supervised learning，clustering，generative model等等都有可能应用到无监督元学习中。

图1. 有监督和无监督元学习比较。在Meta-train阶段，无监督元学习只能利用无标注的数据进行学习，而有监督元学习可以利用标签信息进行训练。Meta-test阶段，有监督和无监督的设置相同。

CACTUs (Unsupervised learning via meta-learning)

图2. CACTUs方法框架图。首先，预训练得到特征表示(1)，对训练数据进行无监督聚类，得到若干组伪标签数据(2a)。然后根据伪标签随机采样多个任务(tasks)(2b)，运行正常的元学习算法(3)，例如MAML或者ProtoNet。

这篇论文是MAML的作者Chelsea Finn等人发表在ICLR19的paper，主要提出了unsupervised meta-learning的设置以及一种简单的基于聚类的方法。虽然方法简单，但是也为后续基于无监督的元学习方法开辟了一个方向。

整个方法可以分成三个步骤（图2）：

使用现有无监督特征学习方法，在无标签训练集合得到特征表示（embedding function）使用聚类方法（例如，k-means）划分出多个子集合等。然后随机采样构建伪标签的元学习任务使用监督元学习方法，如MAML、ProtoNet在步骤2构建的元学习任务上进行学习。需要指出的是这个步骤学习用到的网络结构是随机初始化的，而不是从1步骤得到。这么做，是非常必要的，因为如果聚类和元学习都使用步骤1的网络结构和参数，很可能引起过拟合现象。

作者在Omniglot、Mnist、MiniImagenet以及CelebA上进行了实验，验证了clustering+meta learning的有效性。另外，如图3，通过无监督元学习和有监督元学习的对比，可以看出无监督性能逐步接近有监督性能。

图3. 无监督元学习和有监督元学习性能对比

UMTRA (Unsupervised Meta-Learning for Few-Shot Image Classification)

图4. UMTRA方法框架图。首先，随机选取N个样本作为N个类别，然后将原图片作为support set，augmentation之后的图片作为query set。最后，使用有监督的MAML算法进行元学习参数更新。

CACTUs是一个多步骤的元学习算法，需要先单独训练特征表示，然后用于聚类，最后训练新的网络结构。它的过程相对负责，而且没有很好的灵活性。

受到一些自监督（self-supervised）方法的启发，UMTRA提出了一个end2end的元学习框架，如图4。整个方法包含三个部分：

随机采样N个图片，每个图片单独认为是一个类别，就是N-way 1-shot 的任务对每个图片进行数据增广（Augmentation），增广之后对数据作为元学习的query set，原图作为support set。这样，就有了N-way 1-shot的support+query数据以及N个label。运行MAML算法，进行训练。

作者对方法的动机进行了解释：假设训练集合共有

个类别，每个类别有个样本，我们每次随机选取个样本。这个样本全部来自不同类别的概率是：

上述公式，分子是

个样本全部来自不同类别的可能情况，分母是所有随机组合的情况数目。对于Omniglot（），；对于MiniImagenet，；对于Imagenet，。所以，随机选择的样本有很大概率来自不同类别，这样选出来的样本应该比k-means聚类得到的伪标签更接近真实数据。

其他方法

AAL和UMTRA是同期工作，方法也很大程度重合，但是性能略低于UMTRA。

Centroid Networks提出了不同的Unsupervised meta-learning的设置，但是由于它是ICLR的拒稿paper，这里不做深入解读。

本文涉及到的论文如下：

Kyle Hsu, Sergey Levine, and Chelsea Finn. Unsupervised learning via meta-learning. In International Conference on Learning Representations, .Khodadadeh, Siavash, Ladislau Boloni, and Mubarak Shah. "Unsupervised Meta-Learning for Few-Shot Image Classification."Advances in Neural Information Processing Systems. .A. Antoniou and A. Storkey. Assume, augment and learn: Unsupervised few-shot meta-learning via random labels and data augmentation. arXiv preprint arXiv:1902.09884, .Gabriel Huang, Hugo Larochelle, and Simon Lacoste-Julien. Are few-shot learning benchmarks too simple? .