【机器学习】线性回归多元线性回归自回归及衡量指标

经典线性模型自变量的线性预测就是因变量的估计值。

广义线性模型：自变量的线性预测的函数是因变量的估计值。

常见的广义线性模型有：probit模型、poisson模型、对数线性模型等。对数线性模型里有：logistic regression、Maxinum entropy。

1.线性回归原理

其中，为偏置参数，M为特征数目，为基函数（径向基函数(rbf)、sigmoid基函数等），

特别地，当=,即为简单的多元线性回归。当然，根据需要我们也可以在后面正则项。

2.参数学习

使用一般的平方和误差作为Loss function，主要有以下两种方法学习参数

（1）根据梯度下降不断迭代，此处会涉及到learing rate（学习速率）

（2）直接利用公式计算，得到一维精确解

平方和误差定义：

令这个梯度等于零，

最终我们可以得到(加黑表示为向量)

当然，我们也可以根据实际的情况定义其他的Loss function。

3.思考存在的意义

我们可以利用平方和误差对进行求导，

最终解得

其中，,

因此，偏置补偿了目标值的平均值（在训练集）与基函数的值的加权求和之间的差。

4.从最根本的广义线性模型角度，导出经典线性模型

1）指数家族

当固定T时，这个分布属于指数家族中的哪种分布就由a和b两个函数决定。下面这种是伯努利分布，对应于逻辑回归问题

注：从上面可知，从而，在后面用GLM导logistic regression的时候会用到这个sigmoid函数。

下面这种是高斯分布，对应于经典线性回归问题

2）GLM（广义线性模型）

指数家族的问题可以通过广义线性模型来解决。如何构建GLM呢？

在给定x和参数后，y的条件概率p(y|x,θ) 需要满足下面三个假设：

assum1) y | x; θ ∼ ExponentialFamily(η).

assum2) h(x) = E[y|x]. 即给定x，目标是预测T(y)的期望，通常问题中T(y)=y

assum3) η = θTx，即η和x之间是线性的

3）经典线性回归

经典线性回归：预测值y是连续的，假设给定x和参数，y的概率分布服从高斯分布（对应构建GLM的第一条假设）。由上面高斯分布和指数家族分布的对应关系可知，η=µ，根据构建GLM的第2、3条假设可将model表示成：

5.加快模型收敛速度

可以将训练集中的数据处理到某个特征的范围内（当然这样对最终的结果有一定的影响，这个需要根据集体的目标、数据分布等来分析），从而加快模型收敛，此法不仅限于线性回归。主要有以下几种方法

（1）

（2）[X-mean(X)]/std(X);

（3）sigmod

（4）tan

（5）log

6.优点

（1）训练速度快

（2）对趋势比较明显的数据预测效果比较好

7.缺点

（1）容易欠拟合

（2）针对线性不可分的情况效果往往不佳

8.注意事项

（1）特征之间应相互独立（防止多元共线性，对于多元共线性问题，我们也可以通过逐步回归、岭回归的方法解决，从某种意义上来说类似于添加正则项）

（2）特征不宜过多

（3）做下One-hot处理效果还不错

（4）特征与预测变量之间应有一定相关性（可以使用皮尔逊方法检测）

（5）残差e 服从正态分布N(0,σ2) 。其方差σ2 = var (ei) 反映了回归模型的精度， σ 越小，用所得到回归模型预测y的精确度愈高

（6） e 的大小不随所有变量取值水平的改变而改变，即方差齐性

实例：

线性回归包括一元线性回归和多元线性回归，一元的是只有一个x和一个y。多元的是指有多个x和一个y。

下面我只讲下一元的，多元只是将变成了

一元线性回归其实就是去找到一条直线，这条直线能以最小的误差（Loss）来拟合数据。

怎么来表示误差呢？

如上图所示，横坐标表示x，纵坐标表示y。我们要找的就是图中的这条直线。我们要去找到这条直线，大家可以想象，我们肯定希望找到的那条线，距离每个点都很近，最好所有的点上都在这条线上，但是一条直线去拟合所有的点都在这条直线上肯定不现实，所以我们希望这些点尽量离这条直线近一点。即去找每个点和直线的距离最小的那条线，为了简单起见，将绝对值转化为平方，那么误差可以表示为，这里i表示第i个数据，N表示总的样本个数。一般我们还会把Loss求和平均，来当作最终的损失，

即。

怎么去最小化误差？

我们要怎么去找到最能拟合数据的直线？即最小化误差呢？

一般有两个方法：

最小二乘法

上面我们讲了我们定义的损失，其中的x,y,i,N都是已知的，那么我们就可以把这个方程看作是m和b的方程。作为一个m和b的二次方程。那么求Loss最小值的问题就转变成了求极值问题，这个高数学过的都应该知道点。

怎么求极值呢？

令每个变量的偏导数为零，求方程组的解呗，这个是很基础的高数问题了。

我们可以得到下面的方程组

然后就是巴拉巴拉巴拉把m和b求出来，这样就得到我们要的线性方程了。

梯度下降法

没有梯度下降就没有现在的深度学习，这是一个神奇的算法。

最小二乘法可以一步到位，直接算出m和b，但他是有前提的，具体我有点记不清了，好像是需要满秩什么的。梯度下降法和最小二乘不一样，它通过一步一步的迭代，慢慢的去靠近到那条最优直线。

最小二乘法里面我们提到了两个偏导数，分别为

我们要去找Loss这个方程的最小值，最小值怎么求？按数学的求法就是最小二乘法呗，但是大家可以直观的想一下，很多地方都会用一个碗来形容，那我也找个碗来解释吧。

大家把这个Loss函数想象成这个碗，而我们要求的最小值就是碗底。假设我们现在不能用最小二乘法求极小值，但是我们的计算机的计算能量很强，我们可以用计算量换结果，不管我们位于这个碗的什么位置，只要我们想去碗底，就要往下走。

往下走？？？？？？？？

这个下不就是往梯度方向走吗，那我们沿着梯度一点一点滑下去呗，反正计算机不嫌累。梯度不就是上面那两个公式呗。现在梯度有了，那每次滑多远呢，一滑划过头了不久白算半天了吗，所以还得定义步长，用来表示每次滑多长。这样我们就能每次向下走一点点，再定义一个迭代值用来表示滑多少次，这样我们就能慢慢的一点点的靠近最小值了，不出意外还是能距离最优值很近的。