通俗易懂SVM原理介绍适合小白食用

时间：2022-03-24 23:55:39

通俗易懂SVM原理介绍适合小白食用

1、SVM概念描述

2、SVM数学表达及相关计算

3、SVM优化问题定义

附：证明区

【证明1】

【计算1】

1、SVM概念描述

如图一所示，存在两个数据集，我们希望通过一个超平面将两个数据集分割开，并且我们希望这个超平面离两个数据集越远越好，某种意义上，这代表两个数据集分的更开。即图中的margin可以越大越好。

因为margin越大，对于新的数据点，错误分类的可能就越小。

如图二所示。可以看到，图中有两个可以选择的hyperplane，其中绿色的hyperplane的margin比较小，而黄色的比较大。对于一个新的点，图中用紫色圆形块标注，如果使用绿色的hyperplane将会把这个点归到第二个数据集中，而使用黄色的hyperplane则会归到第一个数据集，显然，如果去掉这两个hyperplane，单纯靠人为判断，我们也会将新的点归到第一个数据集，也就是说，此时margin比较小的绿色hyperplane对新的点的归类是错误的。这也就是我们说的，margin越大错误分类可能性越小。

2、SVM数学表达及相关计算

目标：找到一个超平面来区分两个数据集，且超平面距离两个数据集的距离要最大。

其中yi是第i个点的标签，+1表示属于第一个数据集，-1表示属于第二个数据集。

这样对于新的点x，我们就可以通过的值判断x属于哪个数据集。

但是还需要注意到，中有两个未知变量，分别是,这两个未知量需要通过原先有的带标签数据集来决定。

为了严格起见以及方便运算（更好确定margin大小），我们做一点小小的调整。

通过选取新的,更新y的定义如下：

改变前后示意图如图三所示。

但要注意的是，这是等价的转换，因为图三左边的和右边的并不是一样的。相反这是通过更新，生成新的。也就是说，如果第一张图中没有一个点既不满足，也不满足的话（既不在黄色区域也不在蓝色区域），在第二张图中，也不会有点的在[-1,+1]区间（既不在黄色区域也不在蓝色区域）。
具体证明过程写在文末证明区【证明1】，自行食用~

通过改变定义，我们可以得到margin的距离，从图三的右图也可以发现，这个距离就是与之间的距离。

这个距离通过计算可以知道是