2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 如何评价OpenAI最新的工作CLIP:连接文本和图像 zero shot效果堪比ResNet50?

如何评价OpenAI最新的工作CLIP:连接文本和图像 zero shot效果堪比ResNet50?

时间:2021-10-14 07:26:36

相关推荐

如何评价OpenAI最新的工作CLIP:连接文本和图像 zero shot效果堪比ResNet50?

链接:/question/438649654

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

作者:谢凌曦

/question/438649654/answer/1670115915

先说看法:多模态是趋势没错,可CLIP只是迈出了非常简单的第一步。

只要简单地扫过文章,就会发现方法简单地令人发指——熟悉深度学习编程的人,一个上午大概就能复现出所有代码。而整篇文章最大的复现难点,显然是OpenAI自行收集的400M文本图像配对的数据集。

如果要对比这个方法和传统图像分类方法,那么优缺点都是比较明显的:

相比于传统图像分类方法的优势。这是显而易见的:每张图像的标签不再是一个名词,而是一个句子,因此以往被强行分成同类的图像,就有了“无限细粒度”的标签。例如ImageNet给图片打的标签是“金毛寻回犬”,而这种配对的例子,就可以学习“金毛寻回犬”身处不同环境、在做不同事情的细微差别。

相比于传统图像分类方法的劣势。主要还是文本和图像的配对关联性不够强。这是为什么作者反复强调要收集巨大的数据集,因为他们必须通过大数据的方式来压制噪声。从这个观点出发,我们可以看出些许未来的趋势(见下面第2和第3点)。

最后再说一些扩展的观点:

1.千万不要被它zero-shot的能力吓到,这不是真正的zero-shot!在400M个文本图像配对的训练中,模型肯定看到了大量打着相关文本标签的图像,而且图像的domain比ImageNet要广得多——这也是为什么方法能够在一些高级场景(如clipart)轻松超越ImageNet预训练模型。但是要说这种方法碾压了有监督方法,就有点震惊体哗众取宠的意味了。

2.另一个耐人寻味的地方,是方法同时训练了图像和文本特征(感谢评论区@llll的提醒,一开始我看成只训练图像了)。我直觉地认为文本预训练特征比视觉预训练特征更可靠,但是作者却放弃了OpenAI祖传的超大的文本预训练模型,令人略感意外。尤其是,NLP的预训练模型体量远超视觉预训练模型,所以固定文本模型,也许是更实用的方法?

3.最让我感兴趣的问题,是图像和文本之间的交互方式。直接用文本的encoding结果做为图像的监督信号,显然噪声太大了;能否借鉴captioning等方向的做法,允许图像和文本在encoding过程中多次交互,从而提升效果?当然,这里还是涉及到语言模型太大,无法高效训练。不过,OpenAI也可以选择暴力出奇迹,直接从头训练大规模的跨模态预训练模型。只是这样做的话,400M的数据集可能就太小了。

4.再往深了说,NLP的预训练之所以能做得好,关键是pretext任务比较好。相比起来,CV还在苦苦寻找合适的pretext任务。当前我对跨模态的最大预期,就是能够在NLP的辅助下,定义CV的pretext任务。CLIP迈出了第一步,前面的路还长得很。

总之,CLIP这个工作,技术突破不大,效果还算惊艳。作为占坑之作,将来应该会成为跨模态的一个重要baseline。

作者:刘一凡

/question/438649654/answer/1676282272

1.首先是最大的VIT-L/14的zero-shot的精度到了76.2,也就是提问里的“zero shot效果堪比ResNet50”,VIT-L/14的参数量大概是ResNet50的几十倍了。

2.跑了一下inference code,从人的感觉上来看,还是很惊艳的。吃饭的时候随手拍的西部马华的牛肉面,臊子面,酸菜鱼面 做zero-shot分类竟然都识别对了,下图中使用三种描述:

["a bowl of beef noodles", "a bowl of simmered noodles", "a bowl of sauerkraut fish noodles"]

分别输出三幅图片在三种描述下的概率。都分对了,400 million数据还是强

作者:陀飞轮

/question/438649654/answer/1670144224

clip感觉像是把图像的高维空间映射到文本的高维空间上,但是文本的空间纬度会比图像的空间维度要低的多,文本信息比起图片信息噪声少,语义解耦更加彻底一些,相当于拿图片向量去跟文本向量进行聚类,比起单纯图片的对比学习,聚类方向性更加明确

text encoding类似于空间锚点,给什么锚点,图像就往设定的方向聚类,感觉是更复杂的图像级别的标label方式,这种复杂的标label方式可以把text的高维空间表达的更加复杂,图片可以更加细致的分布到合适区域

作者:kai.han

/question/438649654/answer/1670526162

技术上没有特别新的地方,能把这个setting做work做惊艳也是人才(AlexNet之前也没人把CNN做到那么好)!意义在于再一次证明了大数据的威力。

这篇论文用了400M的图像文本对,联想到谷歌的JFT300M图像标注数据,注意这些数据都是未公开的,整个CV圈怎么越来越朝着医疗图像一样发展了?

还记得这次深度学习的兴起,一个大功臣就是开放的ImageNet数据集。希望有越来越多的大型数据集公开,共襄学术盛举,为了科技的繁荣,为了社会的进步!

另一方面,我们还是得寄希望于无监督学习的发展,早日赶超标注数据的效果,降维打击,这样我们就可以解放数据标注员了

作者:匿名用户

/question/438649654/answer/1669795003

通过对比学习完成了图像语义和文本语义的registration,本质上就是以文本语义为模板(因为文本语义是明确的,NLP的语义嵌入完成的已经比较好了,而图像的语义还不行),协助完成图像语义级别的解耦表示。

这个工作其实没有提供理论层面的新的认知,是在已有认知的方向上进行的验证性工作。我期待看到的,其实是能更新我们对于DL系统认知的工作。

我现在能想到的一个方向是,是否可以通过图像和视频来构造出一套语言,就像人类通过视觉信息构造出语言系统一样。这当然首先要完成对视觉信息的解耦表示,需要不依赖文本语义信息的监督。理论上说这是完全可能的,因为人类大脑就是完成了这个任务,有无可能我们也可以由算法构建一套新的‘自然语言’?这是个有趣的问题。这套语言和我们现在的人类语言会存在对应关系么?有无可能会出现多套没有明确对应关系的语言系统?我觉得完全有这个可能。

作者:黄挂

/question/438649654/answer/1674973615

大家都提到400m的数据集是关键 但我还想再挑明一点是,这400m的集的构造方式,paper里简单说了一句,是用wikipedia里50万个词条每个词条2万条结果组成的。这个2万才是关键。一个实体如果有两万张图片可供学习,即使可能有噪音也能学到泛化爆表吧。然后imagnet的1000个类大概率会落在这50个词条里,这就是zero shot效果好的本质原因。想想jmagenet一共128万条数据,1000个类,匀下来一个类也才1280张。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。