2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 轻量型模型比肩千亿大模型 新一代中文语言模型孟子 刷新CLUE纪录!

轻量型模型比肩千亿大模型 新一代中文语言模型孟子 刷新CLUE纪录!

时间:2019-03-23 01:33:38

相关推荐

轻量型模型比肩千亿大模型 新一代中文语言模型孟子 刷新CLUE纪录!

转自:机器之心

近日,澜舟科技 - 创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型—孟子轻量型模型,超越腾讯、搜狗等公司,在中文语言理解评测 CLUE 榜单上登顶第一,刷新业界记录。

作为中文语言理解领域最具权威性的测评基准之一,CLUE 涵盖文本相似度、分类、自然语言推理、阅读理解等共 10 项语义分析和理解类子任务。近段时间,来自腾讯、搜狗、华为、阿里达摩院的团队纷纷以大模型刷新此榜单。

据了解,澜舟科技是创新工场孵化的一家认知智能公司,公司创始人周明博士是创新工场首席科学家,他是世界顶级的 AI 科学家,自然语言处理领域的代表性人物。如下为 CLUE总榜、分类榜和阅读理解帮最新成绩:

孟子预训练模型

孟子预训练模型是基于澜舟团队自研技术研发的大规模预训练语言模型。可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。孟子模型基于 Transformer 架构,仅包含十亿参数量,基于数百 G 级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。

「小模型,大智慧」。基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现出色。相对已有的中文语言模型,孟子模型实现了多项突破性进展:

坚持 “小而精” 的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。

使用知识图谱增强模型,让 AI 真正获得知识。孟子模型具备顶尖的语言理解能力,在权威 CLUE 中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。总排行榜分数突破 84 分,逼近人类基准分数(85.61)。

灵活的领域和场景适应能力,方便快速定制和应用。基于 T5-style 的端到端生成的训练范式,同步适配 BERT-style 的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。

轻量化模型研究

在轻量化模型算法研究方面,基于自研的基于语言学知识、知识图谱和领域数据增强等技术,从模型架构(包括基础层 Embedding 表示和交互层 Attention 机制)到预训练策略进行了全方位改进。具体而言,

模型结构方面,将语义角色、词性标注等语言学特征融合到 Embedding 表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。

训练策略上,引入基于实体知识和 Discourse 的 Mask 机制,强化模型对语言成分和语篇关系的表征。

为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。

为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。

图 2:孟子轻量化模型算法策略。

基于以上算法策略,实现从语料中高效学习涵盖词级、句子级和语篇级知识,大幅提升语言模型提炼语言结构和语义信息能力,以及良好的领域迁移能力,适应广泛的产品应用场景。

Finetune 的进展

如何将预训练模型用于各项任务同样是一项重要挑战,澜舟团队从数据增强、知识蒸馏、迁移训练、训练优化等方面展开了一些探索,进一步提升语言模型的性能:

数据增强:使用领域相关数据;

知识蒸馏:基于 Teacher-Student 自蒸馏提升训练效率;

迁移训练:结合课程学习的思想,由易到难训练下游模型;

训练优化:使用多种训练目标,多角度提升模型能力;

垂直化领域适应

基于领域适应技术,孟子模型已深度垂直化赋能相应行业。典型的例子为适用于金融领域的孟子模型,领域适应策略主要包含两大方面:

通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。金融版孟子模型已经应用于多个金融行业的合作企业,在金融知识图谱搭建、脱水研报、公告抽取等多个任务上获得了出色的表现。

通过大规模的营销领域语料,将孟子模型迁移到数字营销领域,完成了营销文案生成、新闻摘要等多项任务,将用于行业头部的数字营销公司和多个世界五百强企业的合作之中。

轻量化孟子模型的应用

孟子模型已在多个领域成功落地实践,衍生出多项行业领先的产品,涵盖文本生成、行业搜索、机器翻译等诸多领域。

推荐阅读

【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

分层级联Transformer!苏黎世联邦提出TransCNN: 显著降低了计算/空间复杂度!

重大里程碑!VOLO屠榜CV任务,无需额外数据,首次在ImageNet 上达到87.1%

清华姚班教师劝退文:读博,你真的想好了吗?

李宏毅老师最新40节机器学习课程!附课件+视频资料

最强通道注意力来啦!金字塔分割注意力模块,即插即用,效果显著,已开源!

登上更高峰!颜水成、程明明团队开源ViP,引入三维信息编码机制,无需卷积与注意力

常用 Normalization 方法的总结与思考:BN、LN、IN、GN

注意力可以使MLP完全替代CNN吗?未来有哪些研究方向?

清华鲁继文团队提出DynamicViT:一种高效的动态稀疏化Token的ViT

并非所有图像都值16x16个词--- 清华&华为提出一种自适应序列长度的动态ViT

重磅!DLer-计算机视觉&Transformer群已成立!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

????长按识别,邀请您进群!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。