2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 多模态预训练模型CLIP:中文版本开放使用

多模态预训练模型CLIP:中文版本开放使用

时间:2022-05-01 03:34:09

相关推荐

多模态预训练模型CLIP:中文版本开放使用

公众号原文(关注公众号,获取一手论文咨询):

多模态预训练模型CLIP:中文版本开放使用

中文项目地址:

/real-brilliant/chinese_clip_in_tensorflow

01 背景

CLIP是OpenAI发布的一款多模态预训练模型,其优异的泛化能力和图文对齐能力已经在很多场景大放异彩。

虽然大家都知道CLIP好用,但是模型的预训练语料为<英文, 图片>对齐数据,难以迁移到中文场景。

好在我们有知识蒸馏这个”神器“,利用英文&多语种平行语料+知识蒸馏,迫使多语种BERT的语义空间与CLIP_英文BERT的语义空间对齐,从而实现英文CLIP到多语种CLIP的迁移

02 使用

本公众号开放了多语种CLIP的tensorflow版本,基本只需要tf>=1.15即可使用,相对来说还是十分方便的。

模型可以通过git提供的链接进行下载,目前仅支持BERT+ViT-32的版本,也是CLIP论文中表现最好的版本。

基本使用方式:

实例化clip_tf.py中的Predictor利用predictor分别提取文本和图片的l2_embedding特征计算余弦距离得到图文相似度分数根据任务类型,判断是否需要对图list/文list进行softmax归一(注意,如需进行softmax计算,需要先将分数除以temperature(0.01),例如(0.23, 0.19) -> (23, 19)后再进行softmax)

在clip_tf.py中也有相应的调用范例(simple_test()),直接运行clip_tf.py即可可视化一组文本与一组图片的归一化相似度分数(如下图),可以看出,图文相似度矩阵基本在对角线位置取得最大值,是符合图/文真实匹配度预期的

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。