2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 斯坦福大学马超:探寻「隐式偏差」的完整理论框架

斯坦福大学马超:探寻「隐式偏差」的完整理论框架

时间:2021-04-16 11:12:12

相关推荐

斯坦福大学马超:探寻「隐式偏差」的完整理论框架

智源导读:从数学角度,来构建深度神经网络的理论基础,是一个重要但却「小众」的研究方向,相关的学者多数聚集在一些顶尖知名高校。

斯坦福大学助理教授马超博士正是这批学者之一,其研究内容主要聚焦在神经网络的优化和泛化表现方面。

例如,神经网络模型在过参数化的情况下,依然能够有很好的泛化性能,普遍认为这归因于隐式偏差。马超的工作则是尝试给隐式模型给出一个完整的理论刻画。

这里是对其工作基本思想的概述。在6月1日-3日即将举办的「第三届智源大会」中,马超也将对他的研究工作做更为细致的解读(文章末尾可报名相关论坛

撰文 | 马超,斯坦福大学助理教授

马超,本科毕业于北京大学数学科学学院,后赴普林斯顿大学应用数学系攻读博士,并于取得博士学位,导师为鄂维南教授。此后于斯坦福大学任Szego助理教授至今。马超的主要研究方向为神经网络模型的数学基础,尤其是其优化与泛化表现。此外,他也致力于深度学习方法在科学计算问题中的应用。

个人主页:https://mathematics.stanford.edu/people/chao-ma

1

基本研究思路

长久以来,隐式偏差(implicit bias)被认为是过参数化的神经网络模型能够很好泛化的原因。

由于隐式偏差的存在,神经网络可以对众多能够完全拟合训练数据的解进行筛选,并找到泛化较好的解。

然而,神经网络的隐式偏差来源于何处,以及其作用机制如何,并没有定论。通常认为,神经网络模型其特殊的结构,以及人们使用的优化算法是隐式偏差的两大重要来源。

在我们的工作中,我们对这两大要素的隐式偏差效应进行了分析,并将结果结合,由此对神经网络模型的隐式偏差给出了一个完整的理论刻画。

基于此理论框架,我们证明了随机梯度下降法找到的解,具有较为优秀的泛化表现,同时还有较好的对抗稳定性。

2

研究 1:乘法结构分析

首先,在网络结构方面,我们深入分析了神经网络的乘法结构,即每一层中,来自上一层的输出,和本层的参数矩阵为乘法关系。

仅考虑第一层,这一乘法关系,导致网络整体的输出关于第一层参数的导数,与其关于输入数据的导数形式接近。

由此,我们可以使用网络输出关于参数的导数,控制其关于数据的导数。即如果网络输出值关于参数的变化较为平缓,则其作为一个以数据为输出的模型函数变化也较为平滑,而后者通常意味着较好的泛化表现。这一发现也可以用来解释为何平缓的最优值(flat minima)通常泛化较好。

3

研究 2:隐式偏差效应

另一方面,我们研究了随机梯度下降法的隐式偏差效应。

我们分析了随机梯度下降法在损失函数的全局极小值附近的线性稳定性,并由此推导出了一系列满足线性稳定性的必要条件。

这组条件控制了模型函数关于参数的导数。

同时,它们还依赖于优化算法的步长和批大小,给出了随机梯度法的隐式偏差关于这些重要超参数的依赖关系。

具体来说,步长越大,批大小越小,随机梯度下降法找到的解就越平缓。

将以上结果与前述乘法关系导出的结果结合,我们可知随机梯度下降法找到的解处其神经网络模型表示的函数较为光滑与平坦,因此会有好的泛化性质。

4

研究 3:泛化误差上界

最终,基于以上结果以及一些关于数据分布的假设,我们给出并证明了一组泛化误差的上界。

具体来讲,若一个全局极小解是由随机梯度下降法找到的,那么此解处神经网络的泛化误差可以被估计。其上界依赖于优化算法的步长和批大小,以及一些与神经网络与数据分布相关的超参数。当数据分布在一个较低维度的流形上时,此泛化界有较好的效果。

5

意 义

总之,在此工作中我们系统研究了神经网络模型的隐式偏差效应。

我们分别关注了神经网络模型的特殊结构,以及随机优化方法的特殊性质,并将二者进行了有机的结合。

我们的工作揭示了神经网络隐式偏差的重要来源,以及未来相关研究的重要方向。

北京智源大会

「人工智能的数理基础论坛」报名入群:

(还有更多日常活动,^_^)

更多论坛报名请查看小程序:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。