机器学习深度研究：神奇的范数！线性回归模型的正则化方法

序言

本文是《机器学习深度研究：搭建线性回归模型，预测广告渠道对销量的影响》的续篇，介绍正则化在线性回归中的应用。有些偏理论，但是不介绍又无法进行下一章节，所以我尽可能用通俗易懂的方式来讲解。

通过本章的学习，你可以同时掌握三种线性回归模型，分别是：

线性回归+L1范数=Lasso回归

线性回归+L2范数=岭回归

线性回归+L1&L2范数=ElasticNet回归

再看线性回归

先回顾一下前篇线性回归模型的内容。

线性回归就是用线性函数拟合数据，用 MSE 计算损失，然后用梯度下降法找到一组使 MSE 最小的权重。

我们做线性回归的核心就是得到损失函数并且使其最小化。

线性回归很简单，所以就存在很多问题：

1.在处理较为复杂的数据的回归问题时，通预测精度不足。

2.模型中的特征之间有相关关系，就会增加模型的复杂程度。

3.特征之间出现严重的多重共线性时，用普通最小二乘法估计模型参数，往往参数估计的方差太大，求解出来的模型很不稳定。

4.使用多项式回归，如果多项式最高次项比较大，模型就容易出现过拟合。

引出正则化

引出线性回归正则化，一般有两个角度，为了方便大家理解，我都介绍一下吧。

角度一：解决过拟合问题，需要引入参数调节多元回归中的多项式，如果多项式幂次高导致过拟合，就把多项式降次。反之，反之。

角度二：求解线性回归模型损失函数时，如果特征强相关（多重共线性），或特征数多于样本数，参数估计公式是无法求解，需要在损失函数上添加惩罚项。

上述的参数和惩罚项就是我们要引出的正则化项：

加上所有参数（不包括θ0）的绝对值之和，即l1范数，此时叫做Lasso回归

加上所有参数（不包括θ0）的平方和，即l2范数，此时叫做岭回归

L1正则+L2：ElasticNet Regression代价函数

其中λ称为正则化参数，如果λ选取过大，会把所有参数θ均最小化，造成欠拟合，如果λ选取过小，会导致对过拟合问题解决不当，因此λ的选取是一个技术活。

λ的确定我们下一章会用一个具体案例，用可视化的方式来深度研究，此处先不展开了。

神奇的范数

延伸知识，顺带讲一下范数。

在线性代数、泛函分析等数学领域，是矢量空间内的所有矢量赋予非零的正长度或大小。是不是很难懂？其实我们可以把范数理解为具有“长度”概念的函数，它被用来度量某个向量空间（或矩阵）中的每个向量的长度或大小。我们以向量X = (x1, x2, …, xn)为例，看一下常见的范数，：

L0范数，等于X中所有非零元素个数

L1范数，它在R2空间中的单位圆是正方形，等于向量X各个元素绝对值之和。

L2范数，它在R2空间中的单位圆是圆形，等于向量X各个元素方和的 1/2 次方

...

Lp范数，它是一个超椭圆（具有全等轴），等于向量X各个元素绝对值 p 次方和的 1/p 次方

总结

总结一下这三种回归，下一章我们在实例中会更形象的展示

L1正则化：最大的特点是能稀疏矩阵，进行庞大特征数量下的特征选择

L2正则化：能够有效的防止模型过拟合，解决非满秩下求逆困难的问题

Ridge 适用于解决两类问题：一是样本少于变量个数，二是变量间存在共线性 Lasso 适用于参数少的情况，因其产生稀疏矩阵，可用与特征提取 Elastic Net 适合于在参数很少的情况下（如 Lasso）并保持 Ridge性能的情况，既是多种影响因素依赖与另外一种因素，继承 Ridge 的旋转稳定性。