逻辑回归和线性回归的区别_[PRML]线性分类模型贝叶斯逻辑回归

线性分类相关文章：1、Fisher线性判别分析(LDA)[1]2、广义模型与线性模型& 判别分析 [2]3、逻辑回归[3]4、线性分类模型简介5、感知机原理及代码复现6、概率生成模型7、概率判别模型8、拉普拉斯近似

现在转到逻辑回归的贝叶斯处理。逻辑回归的精确贝叶斯推理是难以处理的。尤其评估后验分布需要前验分布和似然函数的乘积的归一化，其中似然函数包含每个数据点的逻辑sigmoid函数的乘积。

1 拉普拉斯近似

拉普拉斯近似通过找到后验分布的mode，然后以mode为中心拟合高斯分布获得。这需要对数后验的二阶导数的评估，等价于找到Hessian矩阵。

因为寻找一个代表后验分布的高斯形式，则自然从高斯先验开始，其一般形式为：

式

其中是固定的超参数。的后验分布为：

式中。对两边取对数，用式140代替先验分布，式89，得到：

式中。为了得到后验分布的高斯近似，首先最大化后验分布得到MAP(maximum posterior)的解，其是高斯的均值。则协方差由负对数似然的二阶导矩阵的逆给出，其形式为：

因此后验分布的高斯近似形式为：

式

在获得后验分布的高斯近似后，仍然需要对该分布进行边缘化，以便进行预测。

对于类在给定一个新的特征向量下的预测分布是通过对后验分布归一化得到，其通过高斯分布近似，所以：

相应的类的概率为。为了评估预测分布，首先注意到函数通过在上投影依赖。令，有：

式中是Dirac delta function。根据这个得到：

式中：

我们可以通过注意到delta函数对施加了一个线性约束来评估，所以根据联合分布通过对正交的所有方向进行积分形成一个边际分布。因为是高斯分布，所以边际分布也是高斯分布。可以通过取矩计算这个分布的均值和协方差并交换和的积分顺序，所以：

式中对变分后验分布应用了式144。类似的：

注意，的分布与线性回归模型的预测分布式58采用相同的形式，且噪声方差设为零。这样，我们对预测分布的变分近似就变成了：

在上的积分表示一个高斯函数与一个logistic sigmoid函数的卷积，不能被解析地计算。但可以通过利用式59定义的逻辑sigmoid函数和式114定义的probit函数间的密切相似性得到一个很好的近似。

为了获得对logistic函数的最佳逼近，我们需要重新缩放横轴，以便我们用近似。我们可以通过要求这两个函数在原点处具有相同的斜率来找到一个合适的值，这就得到了。图9说明了对这个选择的logistic sigmoid和probit函数的相似性。

使用probit函数的优点是它与高斯函数的卷积可以用另一个probit函数表示。具体来说，我们可以证明这一点：

我们现在对probit函数的两边应用近似，导致以下关于logistic sigmoid函数与高斯函数卷积的近似：

将此结果应用于式151，得到了近似预测分布的形式：

，，分别由式149、150、154定义。

对应的决策边界是由给出，与用MAP得到的决策边界一样。因此如果决策标准是基于最小化错分类率并以同样的先验概率，则对的边缘化没有影响。但对于更复杂的决策标准，它将发挥重要的作用。logistic sigmoid模型在后验分布的高斯近似下的边缘化将在图10.13的变分推断中得到说明。

[1]

Fisher线性判别分析(LDA):/mengjizhiyou/article/details/103309372

[2]

广义模型与线性模型& 判别分析:/mengjizhiyou/article/details/83188432

[3]

逻辑回归:/mengjizhiyou/article/details/103117274