2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 机器学习深度研究:神奇的范数!线性回归模型的正则化方法

机器学习深度研究:神奇的范数!线性回归模型的正则化方法

时间:2020-05-11 18:40:50

相关推荐

机器学习深度研究:神奇的范数!线性回归模型的正则化方法

序言

本文是《机器学习深度研究:搭建线性回归模型,预测广告渠道对销量的影响》的续篇,介绍正则化在线性回归中的应用。有些偏理论,但是不介绍又无法进行下一章节,所以我尽可能用通俗易懂的方式来讲解。

通过本章的学习,你可以同时掌握三种线性回归模型,分别是:

线性回归+L1范数=Lasso回归

线性回归+L2范数=岭回归

线性回归+L1&L2范数=ElasticNet回归

再看线性回归

先回顾一下前篇线性回归模型的内容。

线性回归就是用线性函数拟合数据,用 MSE 计算损失,然后用梯度下降法找到一组使 MSE 最小的权重。

我们做线性回归的核心就是得到损失函数并且使其最小化。

线性回归很简单,所以就存在很多问题:

1.在处理较为复杂的数据的回归问题时,通预测精度不足。

2.模型中的特征之间有相关关系,就会增加模型的复杂程度。

3.特征之间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计的方差太大,求解出来的模型很不稳定。

4.使用多项式回归,如果多项式最高次项比较大,模型就容易出现过拟合。

引出正则化

引出线性回归正则化,一般有两个角度,为了方便大家理解,我都介绍一下吧。

角度一: 解决过拟合问题,需要引入参数调节多元回归中的多项式,如果多项式幂次高导致过拟合,就把多项式降次。反之,反之。

角度二: 求解线性回归模型损失函数时,如果特征强相关(多重共线性),或特征数多于样本数,参数估计公式是无法求解,需要在损失函数上添加惩罚项。

上述的参数和惩罚项就是我们要引出的正则化项:

加上所有参数(不包括θ0)的绝对值之和,即l1范数,此时叫做Lasso回归

加上所有参数(不包括θ0)的平方和,即l2范数,此时叫做岭回归

L1正则+L2:ElasticNet Regression代价函数

其中λ称为正则化参数,如果λ选取过大,会把所有参数θ均最小化,造成欠拟合,如果λ选取过小,会导致对过拟合问题解决不当,因此λ的选取是一个技术活。

λ的确定我们下一章会用一个具体案例,用可视化的方式来深度研究,此处先不展开了。

神奇的范数

延伸知识,顺带讲一下范数。

在线性代数、泛函分析等数学领域,是矢量空间内的所有矢量赋予非零的正长度或大小。是不是很难懂?其实我们可以把范数理解为具有“长度”概念的函数,它被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。 我们以向量X = (x1, x2, …, xn)为例,看一下常见的范数,:

L0范数,等于X中所有非零元素个数

L1范数,它在R2空间中的单位圆是正方形,等于向量X各个元素绝对值之和。

L2范数,它在R2空间中的单位圆是圆形,等于向量X各个元素方和的 1/2 次方

...

Lp范数,它是一个超椭圆(具有全等轴),等于向量X各个元素绝对值 p 次方和的 1/p 次方

总结

总结一下这三种回归,下一章我们在实例中会更形象的展示

L1正则化:最大的特点是能稀疏矩阵,进行庞大特征数量下的特征选择

L2正则化:能够有效的防止模型过拟合,解决非满秩下求逆困难的问题

Ridge 适用于解决两类问题:一是样本少于变量个数,二是变量间存在共线性 Lasso 适用于参数少的情况,因其产生稀疏矩阵,可用与特征提取 Elastic Net 适合于在参数很少的情况下(如 Lasso)并保持 Ridge性能的情况,既是多种影响因素依赖与另外一种因素,继承 Ridge 的旋转稳定性。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。