人工智能迈向“炼大模型”阶段知识表示和学习机理进一步创新突破

时间：2021-07-06 03:46:10

8 月，中国研究人员使用 Alpha Fold2 绘制了近 200 种与 DNA 结合的蛋白质结构图。11 月，德国和美国的研究人员利用 Alpha Fold2 和冷冻电镜绘制了核孔复合物的结构图。12 月 22 日，深势科技推出了蛋白结构预测工具 Uni-Fold，在国内首次复现谷歌 Alphafold2 全规模训练并开源训练、推理代码。

AI 技术年发展总结与展望

人工智能迈向“炼大模型”阶段

今年是超大规模预训练模型的爆发之年。

去年，GPT-3 横空出世，这个具有 1750 亿参数规模的预训练模型所表现出来的零样本与小样本学习能力刷新了人们的认知，也引爆了年 AI 大模型研究的热潮。

谷歌、微软、英伟达、智源人工智能研究院、阿里、百度、浪潮等国内外科技巨头和机构纷纷展开大模型研究和探索。

超大规模预训练模型的“军备竞赛”

年 1 月，Google 推出的 Switch Transformer 模型以高达 1.6 万亿的参数量打破了 GPT-3 作为最大 AI 模型的统治地位，成为史上首个万亿级语言模型。

国内研究机构也不甘示弱。今年 6 月，北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”，达到 1.75 万亿参数，超过 Switch Transformer 成为全球最大的预训练模型。

值得一提的是，今年国产化大模型研发工作进展飞速，华为、浪潮、阿里、百度等都发布了自研的大模型。

浪潮人工智能研究院首席研究员吴韶华向 InfoQ 表示，现在业界提高模型参数量有两种技术路线，产生两种不同的模型结构，一种是单体模型，一种是混合模型。如浪潮的源大模型，华为的盘古大模型、百度的文心大模型、英伟达联合微软发布的自然语言生成模型 MT-NLG 等走的都是单体模型路线；而智源的悟道模型、阿里 M6 等走的是混合模型路线。

预训练模型技术新进展

OPPO 小布智能中心、 NLP 算法工程师曾冠荣认为，预训练模型在今年取得的重要技术进展有：

知识表示和学习机理进一步创新突破

随着对预训练模型的深入理解，预训练模型的知识学习和表征的机理逐步明确，人们得以更加顺利地往模型里注入需要其学习的知识，在这些知识的加持下，对复杂任务的应对能力得到了大幅提升。

对比学习、自监督和知识增强

以对比学习为中心，多种增强方法为工具的方式能进一步提升预训练模型的语义理解和表征能力，增强方法的深入让模型自监督成为可能，让对比学习对样本，尤其是正样本的依赖降低，数据依赖的降低势必让模型对少样本甚至无样本任务的适应性提升，模型能更好地完成这类型的任务，这将让预训练模型落地的成本再降低一个层次。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。