如何评价OpenAI最新的工作CLIP：连接文本和图像 zero shot效果堪比ResNet50？

链接：/question/438649654
编辑：深度学习与计算机视觉
声明：仅做学术分享，侵删

作者：谢凌曦

/question/438649654/answer/1670115915

先说看法：多模态是趋势没错，可CLIP只是迈出了非常简单的第一步。

只要简单地扫过文章，就会发现方法简单地令人发指——熟悉深度学习编程的人，一个上午大概就能复现出所有代码。而整篇文章最大的复现难点，显然是OpenAI自行收集的400M文本图像配对的数据集。

如果要对比这个方法和传统图像分类方法，那么优缺点都是比较明显的：

相比于传统图像分类方法的优势。这是显而易见的：每张图像的标签不再是一个名词，而是一个句子，因此以往被强行分成同类的图像，就有了“无限细粒度”的标签。例如ImageNet给图片打的标签是“金毛寻回犬”，而这种配对的例子，就可以学习“金毛寻回犬”身处不同环境、在做不同事情的细微差别。

相比于传统图像分类方法的劣势。主要还是文本和图像的配对关联性不够强。这是为什么作者反复强调要收集巨大的数据集，因为他们必须通过大数据的方式来压制噪声。从这个观点出发，我们可以看出些许未来的趋势（见下面第2和第3点）。

最后再说一些扩展的观点：

1.千万不要被它zero-shot的能力吓到，这不是真正的zero-shot！在400M个文本图像配对的训练中，模型肯定看到了大量打着相关文本标签的图像，而且图像的domain比ImageNet要广得多——这也是为什么方法能够在一些高级场景（如clipart）轻松超越ImageNet预训练模型。但是要说这种方法碾压了有监督方法，就有点震惊体哗众取宠的意味了。

2.另一个耐人寻味的地方，是方法同时训练了图像和文本特征（感谢评论区@llll的提醒，一开始我看成只训练图像了）。我直觉地认为文本预训练特征比视觉预训练特征更可靠，但是作者却放弃了OpenAI祖传的超大的文本预训练模型，令人略感意外。尤其是，NLP的预训练模型体量远超视觉预训练模型，所以固定文本模型，也许是更实用的方法？

3.最让我感兴趣的问题，是图像和文本之间的交互方式。直接用文本的encoding结果做为图像的监督信号，显然噪声太大了；能否借鉴captioning等方向的做法，允许图像和文本在encoding过程中多次交互，从而提升效果？当然，这里还是涉及到语言模型太大，无法高效训练。不过，OpenAI也可以选择暴力出奇迹，直接从头训练大规模的跨模态预训练模型。只是这样做的话，400M的数据集可能就太小了。

4.再往深了说，NLP的预训练之所以能做得好，关键是pretext任务比较好。相比起来，CV还在苦苦寻找合适的pretext任务。当前我对跨模态的最大预期，就是能够在NLP的辅助下，定义CV的pretext任务。CLIP迈出了第一步，前面的路还长得很。

总之，CLIP这个工作，技术突破不大，效果还算惊艳。作为占坑之作，将来应该会成为跨模态的一个重要baseline。

作者：刘一凡

/question/438649654/answer/1676282272

1.首先是最大的VIT-L/14的zero-shot的精度到了76.2，也就是提问里的“zero shot效果堪比ResNet50”，VIT-L/14的参数量大概是ResNet50的几十倍了。

2.跑了一下inference code，从人的感觉上来看，还是很惊艳的。吃饭的时候随手拍的西部马华的牛肉面，臊子面，酸菜鱼面做zero-shot分类竟然都识别对了，下图中使用三种描述：

["a bowl of beef noodles", "a bowl of simmered noodles", "a bowl of sauerkraut fish noodles"]

分别输出三幅图片在三种描述下的概率。都分对了，400 million数据还是强

作者：陀飞轮

/question/438649654/answer/1670144224

clip感觉像是把图像的高维空间映射到文本的高维空间上，但是文本的空间纬度会比图像的空间维度要低的多，文本信息比起图片信息噪声少，语义解耦更加彻底一些，相当于拿图片向量去跟文本向量进行聚类，比起单纯图片的对比学习，聚类方向性更加明确

text encoding类似于空间锚点，给什么锚点，图像就往设定的方向聚类，感觉是更复杂的图像级别的标label方式，这种复杂的标label方式可以把text的高维空间表达的更加复杂，图片可以更加细致的分布到合适区域

作者：kai.han

/question/438649654/answer/1670526162

技术上没有特别新的地方，能把这个setting做work做惊艳也是人才（AlexNet之前也没人把CNN做到那么好）！意义在于再一次证明了大数据的威力。

这篇论文用了400M的图像文本对，联想到谷歌的JFT300M图像标注数据，注意这些数据都是未公开的，整个CV圈怎么越来越朝着医疗图像一样发展了？

还记得这次深度学习的兴起，一个大功臣就是开放的ImageNet数据集。希望有越来越多的大型数据集公开，共襄学术盛举，为了科技的繁荣，为了社会的进步！

另一方面，我们还是得寄希望于无监督学习的发展，早日赶超标注数据的效果，降维打击，这样我们就可以解放数据标注员了

作者：匿名用户

/question/438649654/answer/1669795003

通过对比学习完成了图像语义和文本语义的registration，本质上就是以文本语义为模板（因为文本语义是明确的，NLP的语义嵌入完成的已经比较好了，而图像的语义还不行），协助完成图像语义级别的解耦表示。

这个工作其实没有提供理论层面的新的认知，是在已有认知的方向上进行的验证性工作。我期待看到的，其实是能更新我们对于DL系统认知的工作。

我现在能想到的一个方向是，是否可以通过图像和视频来构造出一套语言，就像人类通过视觉信息构造出语言系统一样。这当然首先要完成对视觉信息的解耦表示，需要不依赖文本语义信息的监督。理论上说这是完全可能的，因为人类大脑就是完成了这个任务，有无可能我们也可以由算法构建一套新的‘自然语言’？这是个有趣的问题。这套语言和我们现在的人类语言会存在对应关系么？有无可能会出现多套没有明确对应关系的语言系统？我觉得完全有这个可能。

作者：黄挂

/question/438649654/answer/1674973615

大家都提到400m的数据集是关键但我还想再挑明一点是，这400m的集的构造方式，paper里简单说了一句，是用wikipedia里50万个词条每个词条2万条结果组成的。这个2万才是关键。一个实体如果有两万张图片可供学习，即使可能有噪音也能学到泛化爆表吧。然后imagnet的1000个类大概率会落在这50个词条里，这就是zero shot效果好的本质原因。想想jmagenet一共128万条数据，1000个类，匀下来一个类也才1280张。

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 mthler」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓