概要

上节课讲到了线性的支持向量机，采用胖胖的分割线作为分类器。要进行求解，首先将X投影到z空间，然后在z空间进行线性分割就好了。但是如果投影到z空间中的维度很高，或者是无线维，那么好像就不好求解了。

本节课就是讨论如何求解特征转换到高维度或者无线维度的方程。

对偶SVM的动机

所以为啥要用svm的对偶方程去求解呢，就是因为当我们经过特征转化到高维度后，直接采用QP的方式太慢了，或者有的时候会投影到无限多维，这个时候就没法算了。所以能不能在不依赖于空间维度的数量，而是样本数量？如果学习过对偶问题的童鞋应该是知道的，在运筹学中，就相当于影子价格。言归正传，目的如下图：

目的就是SVM的对偶求解不依赖于新产生的维度数量，减少运算复杂度

关于线性对偶可以参考

/cqy_chen/article/details/77872159

将变量个数从d˜+1——>N，而条件个数从N——>N+1。这就是对偶问题干的事情。

这个怎么做呢？使用熟悉的拉格朗日乘子法啦。

回顾原始的式子：

minw,b12wTwsubjectto:yn(wTzn+b)≥1foralln=1,2,.....N

通过添加拉个朗日乘子后,添加了an个乘子：

L(w,b,a)=12wTw+∑n=1Nan(1−yn(wTzn+b))其中：a1,a1,a3......an≥0

这里我们来看看添加之后的式子和原来的式子会不会是一样的呢？

首先我们令,m=12wTw以及n=∑Nn=1an(1−yn(wTzn+b))则：L(w,b,a)=m+n,原来的最小化我们先将w和b固定住，做最大化，然后再做最小化操作，如下：

minb,w(maxa(m+n))

当我们选择了一个不符合条件的点，就会导致yn(wTzn+b)≤1，由于要使得固定w和b之后的最大化，就会导致n无穷大。

当我们选择了一个符合条件的点的时候，就会导致yn(wTzn+b)≥1，这个时候由于要使得固定w和b之后的最大化，只能令所有的拉格朗日乘子都为0，n=0。

当我们最大化之后再进行最小化，只能选择n=0的情况，这个时候和原来的情况是一样一样的，如下图：

拉格朗日对偶SVM

上面式子只是说明了经过变换，拉格朗日式子和原来的求解是一样的。如果是对于非最优的a则有：

minb,w(maxa(L(w,b,a)))≥minb,w(L(w,b,a′))对于任意的a′存在上面的式子。所以在右边的式子加上最大化也成立得到；minb,w(maxa(L(w,b,a)))≥maxa(minb,w(L(w,b,a′)))

上面的这个式子称为拉格朗日对偶问题，这个证明了先固定a,求得最小值，然后求解最大值是原问题的一个解的下确界。

当条件满足kkt条件的时候两个式子是相等的：

对于SVM问题，恰好满足条件，可以通过求解对偶问题来求解原问题。

变成对偶问题之后，有啥好处，因为没有可以在没有条件的情况下去求解w和b了啊

对偶问题是：

maxa(minw,b(12wTw+∑n=1Nan(1−yn(wTzn+b))))

由于先求解里面的最小化，而且是木有任何条件限制的，所以呢，可以直接求解梯度，令为0不就好了么，所以最佳解应该满足：

∂Lb=∑n=1Nan(−yn)=0<==>∑n=1Nanyn=0∂Lw=w+∑n=1Nan(−ynzn)=0<==>w=∑n=1Nanynzn

所以带入b的导数得到：

L(w,b,a)=maxa,∑Nn=1anyn=0(minw(12wTw+∑n=1Nan(1−yn(wTzn))))=maxa,w=∑Nn=1anynzn,∑Nn=1anyn=0(minw(12wTw+∑n=1Nan−wTw))=maxa,w=∑Nn=1anynzn,∑Nn=1anyn=0(minw(−12wTw+∑n=1Nan))=maxa,w=∑Nn=1anynzn,∑Nn=1anyn=0(−12||∑n=1Nanynzn||2+∑n=1Nan)

所以最后我们得到如下式子：

L(w,b,a)=maxa,w=∑Nn=1anynzn,∑Nn=1anyn=0(−12||∑n=1Nanynzn||2+∑n=1Nan)

需要满足如下条件：

1)拉格朗日乘子：a1,a2,a2...an≥0

2)梯度为0：w=∑Nn=1anynzn,∑Nn=1anyn=0

3)线性可分，就是有解：1−yn(wTzn+b)≥0

4)同时我们知道当所选点违反条件的时候，原始的式子里面是趋于无穷大，只有当选择的点满足条件才证明了与原始的式子等同，所以有：an(1−yn(wTzn+b))=0

上面的条件称之为kkt条件，所以我们成功将SVM的问题转换成了对偶问题。