多模态预训练模型CLIP：中文版本开放使用

时间：2022-05-01 03:34:09

公众号原文(关注公众号,获取一手论文咨询)：

多模态预训练模型CLIP：中文版本开放使用

中文项目地址：

/real-brilliant/chinese_clip_in_tensorflow

01 背景

CLIP是OpenAI发布的一款多模态预训练模型，其优异的泛化能力和图文对齐能力已经在很多场景大放异彩。

虽然大家都知道CLIP好用，但是模型的预训练语料为<英文, 图片>对齐数据，难以迁移到中文场景。

好在我们有知识蒸馏这个”神器“，利用英文&多语种平行语料+知识蒸馏，迫使多语种BERT的语义空间与CLIP_英文BERT的语义空间对齐，从而实现英文CLIP到多语种CLIP的迁移。

02 使用

本公众号开放了多语种CLIP的tensorflow版本，基本只需要tf>=1.15即可使用，相对来说还是十分方便的。

模型可以通过git提供的链接进行下载，目前仅支持BERT+ViT-32的版本，也是CLIP论文中表现最好的版本。

基本使用方式：

实例化clip_tf.py中的Predictor利用predictor分别提取文本和图片的l2_embedding特征计算余弦距离得到图文相似度分数根据任务类型，判断是否需要对图list/文list进行softmax归一（注意，如需进行softmax计算，需要先将分数除以temperature（0.01），例如(0.23, 0.19) -> (23, 19)后再进行softmax）

在clip_tf.py中也有相应的调用范例（simple_test()），直接运行clip_tf.py即可可视化一组文本与一组图片的归一化相似度分数（如下图），可以看出，图文相似度矩阵基本在对角线位置取得最大值，是符合图/文真实匹配度预期的。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。